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La précédente édition de cet ouvrage a été publiée en 1990. Nous évoquions alors les 
évolutions de la statistique de la décennie passée. Depuis lors, les progrès de T informatique 
n’ont cessé, permettant d’une part l’utilisation de nouvelles méthodes fondées sur des cal¬ 
culs intensifs (simulation, méthodes non-paramétriques et algorithmiques), et d’autre part le 
traitement de données en masse qui a donné lieu à l’émergence du « data mining » ou 
« fouille de données ». Les logiciels de calcul statistique n’ont cessé de se perfectionner et 
de se diffuser à tel point que des méthodes complexes sont employées de façon routinière 
sans pour cela que l’utilisateur les domine toujours. 

Cette nouvelle édition prend en compte ces évolutions. Outre une mise à jour de cer¬ 
tains exemples, les principaux développements concernent les méthodes de Monte Carlo, 
l’estimation non paramétrique, la modélisation prédictive avec l’introduction des méthodes 
de régression en présence de multicolinéarité, la régression logistique, les SVM et les 
techniques d’apprentissage. Nous avons également rajouté deux chapitres consacrés aux 
deux grandes méthodologies de recueil des données : sondages et plans d’expériences. Ce 
livre a pour but de donner aux étudiants et aux praticiens les outils nécessaires pour appli¬ 
quer correctement les méthodes statistiques. La plupart des résultats sont démontrés, sauf 
certains pour lesquels les preuves trop techniques auraient alourdi ce livre. Les 21 chapitres 
sont regroupés en cinq parties : 

La première « outils probabilistes » donne les bases nécessaires à l’inférence clas¬ 
sique. L’approche probabiliste permet de prendre en compte le fait que notre univers 
n’est pas déterministe et que les données dont on dispose ne sont pas parfaites. La 
deuxième partie intitulée « statistique exploratoire » regroupe les outils de description 
non-probabilistes des données, allant de la statistique descriptive unidimensionnelle à ce 
que l’on appelle « analyse des données » en un sens restreint qui selon nous ne se limite 
pas aux méthodes dérivées de l’analyse en composantes principales et de la classifica¬ 
tion : pour nous le but de la statistique est d’analyser des données ... La troisième par¬ 
tie « statistique inférentielle » est consacrée classiquement à l’estimation et aux tests. La 
quatrième partie « modèles prédictifs » regroupe les techniques de régression au sens 
large où on cherche un modèle reliant une réponse Y à des prédicteurs Xj. La cinquième 
partie concerne « le recueil des données » par sondages ou expérimentation. Le recueil 
des données constitue un préalable à l’analyse ; le placer en dernière partie peut sembler 



VI 
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illogique, mais le fait est que la collecte des données ne peut se concevoir sans en 
connaître l'usage ultérieur, ce qui nécessite la compréhension de l’estimation et de la 
modélisation. 

Je remercie enfin tous ceux qui ont contribué à un titre ou à un autre à la réalisation de cet 
ouvrage, ainsi que les Éditions Technip pour leur patience et le soin apporté à sa réalisation. 


Gilbert Saporta 

(mars 2006 ) 
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Introduction 


Les méthodes statistiques sont aujourd’hui utilisées dans presque tous les secteurs de 
l’activité humaine et font partie des connaissances de base de l’ingénieur, du gestionnaire, 
de l’économiste, du biologiste, de l’informaticien . . . Parmi les innombrables applications 
citons dans le domaine industriel : la fiabilité des matériels, le contrôle de qualité, l’analyse 
des résultats de mesure et leur planification, la prévision, et dans le domaine de l’économie 
et des sciences de l'homme : les modèles économétriques, les sondages, les enquêtes d’opi¬ 
nion, les études quantitatives de marché, etc. 

Nous allons tenter de préciser dans les paragraphes suivants les notions fondamentales de 
la statistique et les rapports qu’elle entretient avec la théorie des probabilités ainsi que ce 
qu’on entend par démarche statistique. 


LA STATISTIQUE, LES STATISTIQUES 
ET LE CALCUL DES PROBABILITÉS 

Selon la définition de Y Encyclopédie Universalis : « Le mot statistique désigne à la fois un 
ensemble de données d’observations et l’activité qui consiste dans leur recueil, leur traitement 
et leur interprétation ». 

Ainsi le relevé des débits journaliers d’une rivière de 1971 à 1983 constitue une statistique 
tandis que faire de la statistique sur ces données consisterait par exemple, à tracer des 
graphiques mettant en évidence la périodicité du phénomène, à calculer un débit moyen ou 
à prévoir la valeur maximale de la crue annuelle. 

Individus et variables 

Définitions générales 

Faire de la statistique suppose que l’on étudie un ensemble d’objets équivalents sur 
lesquels on observe des caractéristiques appelées « variables ». 

Ainsi en contrôle de fabrication on prélèvera un ensemble de pièces dans une production 
homogène et on mesurera leur poids, leur diamètre. En marketing on étudiera les clients 
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d’une entreprise en les décrivant par leurs caractéristiques socio-démographiques et leurs 
achats passés. 

La notion fondamentale en statistique est celle de groupe ou d’ensemble d’objets 
équivalents que l’on appelle population. Ce terme hérité des premières applications de la 
statistique à la démographie est employé pour désigner toute collection d’objets à étudier 
ayant des propriétés communes. Ces objets sont appelés des individus ou unités statis¬ 
tiques. 

La statistique traite des propriétés des populations ou de sous-populations plus que de 
celles d’individus particuliers : 

Généralement la population à étudier est trop vaste pour pouvoir être observée exhausti¬ 
vement : c’est évidemment le cas lorsque la population est infinie : par exemple l’ensemble 
de toutes les pièces métalliques que pourrait sortir une machine dans des conditions de 
fabrication déterminées, mais c’est aussi le cas lorsque les observations sont coûteuses 
(contrôle destructif entre autres). 

L’étude de tous les individus d’une population finie s’appelle un recensement. Lorsque 
l’on n’observe qu’une partie de la population on parle de sondage, la partie étudiée 
s’appellant réchantillon. 

Chaque individu d’une population est décrit par un ensemble de caractéristiques 
appelées variables ou caractères. Ces variables peuvent être classées selon leur nature : 

- variables quantitatives ou numériques : par exemple taille, poids, volume, s’ex¬ 
priment par des nombres réels sur lesquels les opérations arithmétiques courantes 
(somme, moyenne, . . .) ont un sens. Certaines peuvent être discrètes (nombre 
fini ou dénombrable de valeurs) : nombre de défauts d’une pièce, de véhicules 
passant en une heure à un péage, etc. ou continues si toutes les valeurs d’un 
intervalle de IR sont acceptables. 

- variables qualitatives s’exprimant par l’appartenance à une catégorie ou modalité 
d’un ensemble fini. Certaines sont purement nominales : par exemple type de traite¬ 
ment thermique subi par un alliage, catégorie socio-professionnelle d’un actif (ouvrier, 
cadre, employé . ..), d’autres sont ordinales lorsque l’ensemble des catégories est 
muni d’un ordre total ; par exemple : très résistant, assez résistant, peu résistant. 

Le concept clé en statistique est la variabilité qui signifie que des individus en apparence 
semblables peuvent prendre des valeurs différentes : ainsi un processus industriel de fabrication 
ne fournit jamais des caractéristiques parfaitement constantes. 

L’analyse statistique est pour l’essentiel une étude de la variabilité : on peut en tenir 
compte pour prévoir de façon probabiliste le comportement d’individus non encore 
observés, chercher à la réduire ou « l’expliquer » à l’aide de variables extérieures, 
ou chercher a l’augmenter dans le but de distinguer le mieux possible les individus 
entre eux. 

Tableaux de données 

On présente usuellement sous forme de tableau à n lignes, les données recueillies sur n 
individus. Lorsque l’on observe uniquement des variables numériques le tableau a la forme 
d’une matrice à n lignes et p colonnes de terme général x{ : 
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Lorsque les variables sont toutes qualitatives, le tableau où x j . désigne le numéro de la 
catégorie de la variable ?£ J à laquelle appartient l’individu i est le tableau des coda¬ 
ges réduits. Les numéros des modalités étant arbitraires, on lui associera le tableau dis- 
jonctif à /7i| + ni 2 + . . . + m p colonnes constitué de la façon suivante : 

A toute variable à nij catégories on substitue un ensemble de nij variables valant 0 ou 1 
(les indicatrices des catégories). Ainsi au tableau 5X3 des observations sur 5 individus de 
3 variables à 2, 3 et 2 modalités respectivement : 

'l 2 f 

1 3 1 

2 1 2 
2 2 2 
1 1 1 

correspond le tableau disjonctifà 5 lignes et 7 colonnes suivant : 


“l 

0 

0 

1 

0 

1 

o" 

1 

0 

0 

0 

1 

1 

0 

0 

1 

1 

0 

0 

0 

1 

0 

1 

0 

1 

0 

0 

1 

1 

0 

1 

0 

0 

1 

0 


Mentionnons enfin les tableaux de contingence ou tableaux croisés qui résultent d’un 
premier traitement et fournissent la ventilation de n individus selon deux variables quali¬ 
tatives à w, et m 2 modalités : 
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où ny est le nombre d’individus appartenant simultanément aux catégories / et j des 
deux variables. 


Statistique et probabilités 

La théorie des probabilités est une branche des mathématiques qui traite des propriétés 
de certaines structures modélisant des phénomènes où le « hasard » intervient. En tant que 
théorie mathématique abstraite, elle repose sur une axiomatique et se développe de façon 
autonome par rapport à la réalité physique. Seuls les noms des concepts utilisés (événe¬ 
ments, variables . . .) renvoient à l’expérience. 

La théorie des probabilités permet de modéliser efficacement certains phénomènes aléa¬ 
toires et d’en faire l’étude théorique. 

Quels sont ses liens avec la statistique qui repose plutôt sur l’observation de phéno¬ 
mènes concrets ? On peut en voir schématiquement trois : tout d’abord les données obs¬ 
ervées sont souvent imprécises, entachées d’erreur. Le modèle probabiliste permet alors 
de représenter comme des variables aléatoires les déviations entre « vraies » valeurs et 
valeurs observées. 

Deuxièmement on constate souvent que la répartition statistique d’une variable au sein 
d’une population est voisine de modèles mathématiques proposés par le calcul des probabi¬ 
lités (lois de probabilité). 

Enfin et c’est à notre avis le rôle le plus important du calcul des probabilités, les 
échantillons d’individus observés sont la plupart du temps tirés au hasard dans la popu¬ 
lation, ceci pour assurer mathématiquement leur représentativité : si le tirage est fait de 
manière équiprobable chaque individu de la population a une probabilité constante et bien 
définie d’appartenir à l’échantillon. Les caractéristiques observées sur l’échantillon 
deviennent, grâce à ce tirage au sort, des variables aléatoires et le calcul des probabilités 
permet d’étudier leurs répartitions. Mentionnons ici les méthodes de validation 
par rééchantillonnage (bootstrap, validation croisée) qui consistent a re-tirer des observa¬ 
tions à l’intérieur de l’échantillon initial. 

Il faut bien distinguer ce dernier rôle du calcul des probabilités des deux premiers : dans 
les premiers cas le calcul des probabilités propose des modèles simplificateurs, éventuelle¬ 
ment contestables, du comportement d’un phénomène (par exemple supposer que la durée 
de vie X d’un composant électronique suit une loi exponentielle P(X > .y) = exp (— ex)) ; 
dans le dernier cas, le calcul des probabilités fournit des théorèmes si le processus d’échan¬ 
tillonnage est respecté : ainsi le théorème central limite permet d’établir que la moyenne x 
d’une variable numérique mesurée sur n individus s’écarte de la moyenne ni de la population 
selon une loi approximativement gaussienne. 

Le calcul des probabilités est donc un des outils essentiels de la statistique pour pouvoir 
extrapoler à la population les résultats constatés sur l’échantillon mais on ne peut y réduire 
la statistique : à côté du calcul des probabilités, la statistique utilise des mathématiques assez 
classiques (algèbre linéaire, géométrie euclidienne) et de plus en plus l’informatique, car 
les calculs à mettre en œuvre nécessitent l'emploi d'ordinateurs : l’informatique a révolu¬ 
tionné la pratique de la statistique en permettant la prise en compte de données multidimen¬ 
sionnelles ainsi que l’exploration rapide par simulation de nombreuses hypothèses. 
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Ce livre met plus l’accent sur les techniques et la démarche statistiques que sur la théo¬ 
rie des probabilités, conçue ici comme un outil pour la statistique et non comme un objet 
d’étude en elle-même. 

la démarche statistique classique 

Elle comporte usuellement trois phases : le recueil, l’exploration, l’inférence et la 
modélisation. 

Le recueil des données 

En dehors des cas où les données sont déjà disponibles, il est nécessaire de les collecter. 
Les deux grandes méthodologies sont les sondages et les plans d’expériences. 

Les sondages 

Essentiellement utilisés dans les sciences humaines, mais également pour obtenir des 
échantillons dans des bases de données, les techniques de sondages servent à choisir dans 
une population les unités à interroger ou observer. Le choix des unités se fait en général 
aléatoirement, mais pas nécessairement avec des probabilités égales pour toutes les unités. 
L’important est qu’il n'y ait pas d'individus de la population qui aient une probabilité nulle 
de figurer dans l’échantillon, sinon les résultats risquent d’être biaisés car l’échantillon ne 
sera plus représentatif. Les méthodes non-aléatoires sont également souvent utilisées dans 
les études de marché et d’opinion qui constituent un secteur d’activité important. 

Les plans d’expériences 

Introduits au début du XXe siècle en agronomie, puis utilisés en recherche industrielle, ils 
ont pour but de provoquer l’apparition de données selon des conditions expérimentales pré¬ 
cises. La théorie des plans d’expériences permet de minimiser le coût de recueil des données 
en cherchant les expériences les plus efficaces. 

Bien qu’employées dans des contextes très différents, ces deux méthodologies ont des points 
communs : elles cherchent à optimiser le recueil des données. Mais il n’y a pas d’optimum en 
soi, tout dépend du but recherché. En sondages on cherche à estimer les paramètres d’une popu¬ 
lation avec une variance minimale en utilisant toutes les informations dont on dispose. Dans les 
plans d’expériences, on dispose d’un modèle prédictif reliant approximativement une réponse à 
des facteurs de variabilité : on cherche à déterminer les expériences permettant d’estimer au 
mieux les paramètres du modèle, ou les prévisions qui en découlent : un plan optimal pour un 
modèle ne le sera pas pour un autre. 

La statistique exploratoire 

Son but est de synthétiser, résumer, structurer l’information contenue dans les données. 
Elle utilise pour cela des représentations des données sous forme de tableaux, de graphiques, 
d’indicateurs numériques. 
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Le rôle de la statistique exploratoire est de mettre en évidence des propriétés de l’échan¬ 
tillon et de suggérer des hypothèses. Les modèles probabilistes ne jouent ici qu’un rôle très 
restreint voire même nul. 

Les principales méthodes de l’analyse exploratoire se séparent en deux groupes : Après une 
phase de description variable par variable, puis par couples de variables (la statistique des¬ 
criptive classique) Y analyse des données au sens français restreint, exploite le caractère mul¬ 
tidimensionnel des observations au mogen de : 

- méthodes de classification visant à réduire la taille de l’ensemble des individus en 
formant des groupes homogènes; 

- méthodes factorielles qui cherchent à réduire le nombre de variables en les résumant 
par un petit nombre de composantes synthétiques. Selon que l’on travaille avec un 
tableau de variables numériques ou qualitatives on utilisera Y analyse en compo¬ 
santes principales ou Yanalyse des correspondances. Les liens entre groupes de 
variables peuvent être traités par l’ana/yse canonique. 


La statistique inférentielle 

Son but est d’étendre les propriétés constatées sur l’échantillon à la population toute entière 
et de valider ou d'infirmer des hypothèses a priori ou formulées après une phase exploratoire. 
Le calcul des probabilités joue souvent un rôle fondamental. 

Donnons ici quelques exemples élémentaires. 

Estimation d’une moyenne 


Une même grandeur est mesurée n fois de suite par un même observateur, l’imprécision de 
l’instrument de mesure et d’autres facteurs rendent fluctuantes ces mesures et on obtient n 
valeurs différentes .v,, .v 2 ,. . ., a ; i . Comment déterminer la vraie valeur m ? On peut admettre que 
ces valeurs constituent des observations ou réalisations indépendantes d'une variable X de 
moyenne théorique m ( espérance mathématique) si il n’y a pas d’erreurs systématiques. 


La loi des grands nombres montre alors que la moyenne x = 


x i + x -> + 


+ x,. 


de 


l’échantillon constitue une bonne approximation de m; x est une estimation de ni. 


L’échantillon ayant été « tiré au hasard » la valeur constatée x n’est qu’une de celles que 
l’on aurait pu trouver : c’est donc une variable aléatoire qui aurait pu fournir une autre valeur 
si on avait répété l’expérience dans les mêmes conditions. 


Si n est assez grand le calcul des probabilités fournit avec une grande précision la loi de 
répartition des valeurs possibles de x autour de m et on pourrait en déduire si m était connu un 
intervalle du type | m — A m, m + Am 1 ayant une probabilité fixée, disons 95 %, de contenir x. 
Connaissant une observation x on inverse alors la problématique et on peut en déduire une 

fourchette ou intervalle de confiance pour la vraie valeur m. 


Vérification d’une hypothèse ou test 

Le cas suivant est classique en contrôle de qualité. Un client commande à son fournisseur 
des lots de pièces dont la qualité est spécifiée par contrat : le fournisseur s’engage à respec¬ 
ter un taux de pièces défectueuses inférieur à 4 %. Avant de livrer, le fournisseur effectue un 
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contrôle sur 50 pièces el en trouve trois défectueuses soit 6 % : doit-il livrer quand même au 
risque de se faire refuser la marchandise ? 

Le raisonnement est alors le suivant : si le taux théorique de défectueux est de 4 % 
quelles sont les chances d’observer un tel nombre de défectueux ? Le calcul des proba¬ 
bilités montre alors qu’il y a une probabilité voisine de 0.32 d’observer trois pièces 
défectueuses ou plus (loi binomiale 53(50 ; 0.04)). Cette probabilité étant assez forte, 
l’événement constaté paraît donc normal au fournisseur et ne semble pas de nature 
à remettre en cause l’hypothèse formulée. Mais le client serait-il d’accord ?... Il faut 
alors calculer le risque d’un refus par le client. 

Dans ces deux cas le raisonnement procède du même schéma : 

- l’échantillon est tiré au hasard dans une population plus vaste ; 

- le calcul des probabilités permet ensuite de préciser les caractéristiques de l’ensem¬ 
ble des échantillons que l’on aurait pu obtenir par le même procédé, c’est l’étude des 

distributions'd’échantillonnage ; 

- on inverse les conclusions de la phase précédente pour en déduire la structure 
vraisemblable de la population dont est issu l’échantillon observé. C’est la phase 
inférentielle. 

On ne manquera pas de constater la similitude de cette démarche statistique avec la 
démarche scientifique habituelle : observation, hypothèses, vérification. 

L’avènement des ordinateurs et le développement du calcul statistique permettent dans 
une certaine mesure de s’affranchir de modèles probabilistes souvent illusoires car choisis 
pour leur relative simplicité mathématique mais pas toujours adaptés aux données. Les 
méthodes de rééchantillonnage renouvellent la problématique de l’inférence en n’utilisant 
que les données observées. 

La modélisation et la prévision statistique 

La modélisation consiste généralement à rechercher une relation approximath'e entre une 
variable et plusieurs autres, la forme de cette relation étant le plus souvent linéaire. Lorsque 
la variable à « expliquer » ou à prévoir est numérique ainsi que les variables explicatives, on 
parle de régression linéaire , si certaines variables explicatives sont qualitatives le modèle 
linéaire général en est une extension. 

Lorsque l’on cherche à prévoir une variable qualitative (appartenance à une catégorie) on 
utilisera une méthode de discrimination. 


STATISTIQUE ET « DATA MINING » 

L’émergence d’immenses bases de données, souvent recueillies automatiquement, en par¬ 
ticulier dans le fonctionnement des entreprises, a fait apparaître de nouvelles probléma¬ 
tiques, différentes de celles exposées précédemment. 11 ne s’agit plus tant de découvrir ou 
d’estimer des modèles de la réalité (démarche scientifique) mais de donner des réponses à 
des questions opérationnelles comme : à quelles adresses d’un fichier dois-je envoyer une 
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publicité pour obtenir un taux de retour maximal, à qui dois-je accorder un crédit pour mini¬ 
miser le risque de perte ? 

La statistique n’est plus alors un auxiliaire de la science mais aussi un outil pour l’action. 

Le « data mining » que l’on peut traduire par « fouille de données » est apparu au milieu 
des années 1990 comme une nouvelle discipline à l'interface de la statistique et des techno¬ 
logies de l’information : bases de données, intelligence artificielle, apprentissage automa¬ 
tique ( machine leonüng). 

David Hand (1998) en donne la définition suivante : « Data Mining consista in the disco- 
very of interesting, unexpected . or valuable structures in large data sets ». La métaphore 
qui consiste à considérer les grandes bases de données comme des gisements d’où l’on 
peut extraire des pépites à l’aide d’outils spécifiques n'est pas nouvelle. Dès les années 
1970 Jean-Paul Benzécri n’assignait-il pas le même objectif à l’analyse des données ? : 
« L'analyse des données est un outil pour dégager de la gangue des données le pur diamant 
de la véridique nature ». 

Tel M. Jourdain, les statisticiens faisaient donc du data mining sans le savoir. 

« Data Mining » versus modélisation statistique 

La notion de modèle en fouille de données prend un sens particulier : un modèle est une 
relation entre des variables exprimable sous une forme analytique ou algorithmique qui ne 
provient pas d’une théorie mais est issu de l’exploration des données et réalise un bon ajus¬ 
tement. Ainsi il est courant d’explorer différents modèles (linéaires, non-linéaires) en faisant 
varier les paramètres (nombre de couches dans un réseau de neurones, noyau pour des SVM 
etc.) jusqu’à obtenir les meilleures prédictions. On est très loin de la démarche usuelle de 
modélisation, mais plutôt dans une optique pragmatique où il ne s’agit pas forcément de 
comprendre mais de prévoir du mieux possible. 

La démarche n’est pas pour autant du pur empirisme et se fonde sur la théorie de l’appren¬ 
tissage statistique : un modèle réalise un compromis entre sa capacité à rendre compte des don¬ 
nées d’apprentissage et sa capacité de généralisation à de nouvelles données. 

L'inférence statistique classique a été développée pour traiter des « petits » échantillons. 
En présence de très grandes bases de données le paradoxe est que tout devient significatif : 
par exemple, pour un million d’individus, l’hypothèse d’indépendance entre deux variables 
sera rejetée au risque 5 % si le coefficient de corrélation linéaire est supérieur en valeur abso¬ 
lue à 0.002, ce qui est sans intérêt. L’inférence classique ne fonctionne plus et la fouille des 
grandes bases de données amène à repenser la notion de test : le choix d'un modèle se fait 
en fonction de ses performances sur d’autres données que celles qui ont servi à le choisir et 
le caler, d'où l’emploi de méthodes de validation croisée ou de mesures de capacité de type 
dimension de Vapnik-Cervonenkis. En outre en Data Mining, on analyse des données 
recueillies à d’autres fins : c’est une analyse secondaire destinée à valoriser des bases de 
données déjà constituées : on ne se préoccupe plus de collecter des données de manière effi¬ 
cace. L’échantillonnage ne perd cependant pas ses droits dans la phase de validation car il 
est souvent préférable de travailler sur une partie de la base que sur la totalité. 

Plutôt que d’opposer data mining et statistique, il vaut mieux considérer que le data 
mining représente la branche de la statistique consacrée à l’exploitation des grandes bases de 
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données. Si de nouvelles méthodes ont vu le jour en dehors du monde des statisticiens, il 
n’en reste pas moins que ces méthodes relèvent de la statistique au sens large « recueil, trai¬ 
tement, interprétation de données » et que I’ « esprit statistique » imprégné des notions de 
marge d’erreur, de risque, d’incertain, reste indispensable pour en relativiser les conclusions. 

Le praticien de la statistique doit donc être non seulement à l’interface avec les discipli¬ 
nes d’application, mais aussi dominer les outils informatiques de son temps. 



probabiliste 



En tant que théorie mathématique, la théorie des probabilités n'a pas à être justifiée : 
une fois ses axiomes posés, elle se développe de façon autonome par rapport à la réalité 
concrète. 

Il en va autrement lorsque l’on cherche à appliquer le calcul des probabilités : on ne peut 
alors éluder la question de la nature de la probabilité et de la validité du modèle probabiliste. 
Après trois paragraphes consacrés à un exposé simple (I) de la théorie on se proposera de 
donner quelques éléments de réflexion sur le concept de probabilité. 


I. I ESPACE PROBABSLISABLE 

On expose ici la formalisation d’une expérience où intervient le « hasard ». 

I. I. I Expérience aléatoire et événements 

Une expérience est qualifiée d’a/éatoire si l’on ne peut prévoir par avance son résultat et 
si, répétée dans des conditions identiques, elle peut (on aurait pu s’il s’agit d’une expérience 
par nature unique) donner lieu à des résultats différents. 

On représente le résultat de cette expérience comme un élément ta de l’ensemble fl de 
tous les résultats possibles : O est appelé I*ensemble fondamental ou encore l’univers des 
possibles. 

Ainsi à l’expérience aléatoire qui consiste à lancer deux dés, on peut associer l’ensemble 
fl = {(1.1), (1.2), (1.3). ..) à 36 éléments. 

Il convient de noter ici que l’ensemble fl ne se déduit pas de manière unique de l’expé¬ 
rience mais dépend de l’usage qui doit être fait des résultats : ainsi, si l’on convient une 
fois pour toutes qu’on ne retiendra de l’expérience des deux dés que la somme des points 
affichés, on peut très bien se contenter d’un ensemble fl' = [2, 3, 4 . . . 12}. 


lœsUn exposé complet des fondements théoriques, comprenant en particulier le théorème de prolongement, 
dépasserait le cadre de ce livre. On se reportera à l'ouvrage de j. Neveu (1964). 
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Un événement est une assertion ou proposition logique relative au résultat de l'expérience 
(ex. : la somme des points est supérieure à 10). On dira qu’un événement est réalisé ou non 
suivant que la proposition est vraie ou fausse une fois l’expérience accomplie. 

A la réalisation d’un événement on peut donc associer tous les résultats de l’épreuve 
correspondante ; ainsi la somme supérieure ou égale à 10 est l’ensemble de résultats 
suivants : 

[(4.6); (5.6); (6.6); (6.4); (6.5)} 

c’est-à-dire une partie de O. Désormais nous identifierons un événement à la partie de O 
pour laquelle cet événement est réalisé. 

On appelle événement élémentaire une partie de H réduite à un seul élément. 

1.1.2 Algèbre des événements 

Réciproquement toute partie de fl peut-elle être considérée comme un événement, ou du 
moins est-il utile qu’il en soit ainsi ? Afin de répondre à cette question nous allons supposer 
pour l’instant que l’ensemble des événements constitue une classe if de parties de fl dont 
nous allons définir les propriétés en nous référant à des besoins usuels ; nous en profiterons 
pour introduire le vocabulaire probabiliste. 

A tout événement A, on associe son contraire noté A tel que si A est réalisé alors A ne l’est 
pas, et réciproquement. A est donc représenté dans fl par la partie complémentaire de A. 

11 sera donc naturel d’exiger de if la propriété suivante : si A e if alors A e if. 

Étant donné deux événements A, B on est conduit à s’intéresser à leur union A ou B (A U B) 
et à leur intersection (A et B ou A H B). 11 faudra donc que si A, B e if, A U B et A H B e if, 
et ceci d’une manière générale pour un nombre quelconque d’événements. 

On définit également l’événement certain représenté par fl tout entier et l’événement 
logiquement impossible (tel que avoir une somme de points égale à 13) représenté par 
l’ensemble vide 0. 

Nous pouvons maintenant définir la classe if par les trois axiomes : 

- VA e if, A e if ; 

- pour tout ensemble fini ou dénombrable A\, A 2 , . . A n d'éléments de 'if, U A,- e if ; 

- fl 6 %. 

On peut montrer à titre d’exercice que ces axiomes impliquent que 0 € if et que O A,- € if. 

Les propriétés précédentes définissent ce que l’on appelle une m-algèbre de Boole ou une 
tribu. SP(fl) est une tr-algèbre particulière, la plus grosse, mais il n’est pas toujours utile ni 
souhaitable de l’utiliser. 

On peut donc donner maintenant la définition d’un espace probabilisable : 

Définition 

On appelle espace probabilisable le couple (fl ; if) où if constitue une tribu de parties 
de fl. 
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Donnons encore quelques définitions utiles : 


DÉFINITIONS 


Événements incompatibles . Deux événements A et B sont dits incompatibles si la 
réalisation de l'un exclut celle de l'autre , autrement dit si les parties A et B de H sont 
disjointes A D B = 0. 

Système complet d'événements , A;, A 2 , ■ • -, A ,, forment un système complet d'événe¬ 
ments si les parties A ,, . . A„ de fi constituent une partition de O ; 

| V/ A j A t r\Aj = 0 

1 u a, = n 


1.2 ESPACE PROBABILISÉ 


f.2.1 L’axiomatique de Kolmogorov 

A chaque événement on associe un nombre positif compris entre 0 et 1, sa probabilité. 
Afin d'éviter toute discussion de nature philosophique sur le hasard, la théorie moderne des 
probabilités repose sur faxiomatique suivante : 

Définitions 

On appelle probabilité sur (0/6’) (ou loi de probabilité ) une application P de % dans 
| [0, 1] telle que : 

- P(fl) = 1 ; 

- pour tout ensemble dénombrable d'événements incompatibles A,, A 2 , . . A„, on 

| aP(UAi) = S/>(A f -). 

1 On appelle espace probabilisé le triplet (fi, % P). 


Une loi de probabilité n’est donc rien d’autre qu’une mesure positive de masse totale 1 et 
la théorie des probabilités s’inscrit dans le cadre de la théorie de la mesure. 

1.2.2 Propriétés élémentaires 

Des axiomes on déduit immédiatement les propriétés suivantes : 

Propriété 1 : P(0) = 0. 

Propriété 2 : P(A) — 1 — P(A). 

Propriété 3 : P(A ) < P(B) si A CB. 

Propriété 4 : P(A U B) = P(A) + Pt B) - P(A fl B). 

Propriété 5 : P(U A,) < 2 P(A,). 

i 

Propriété 6 : Si A, j 0, alors lim P(A,) — 0 (continuité monotone séquentielle). 
Propriété 7 : Théorème des probabilités totales : Soit B, un système complet d'événe¬ 
ments alors VA : P(A) = ^P(A D B,). 
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Formule de Poincaré 


Cette formule permet de calculer la probabilité de la réunion d’un nombre quelconque 
d 1 événements ; elle se démontre par récurrence : 

p(ïk>= iw,i- î m.n-y 

/=1 /=] ls£l<j==l 

+ i + ■ ■ ■ + (-îy-'w.n^....ru,) 

I £i</<itsi 


Remarque : P(A) = 0 n’implique pas nécessairement A = 0. Un événement de probabi¬ 
lité nulle n’est pas nécessairement impossible : soit H = [0, 1] muni de la loi de probabilité 
uniforme (c’est-à-dire de la mesure de Lebesgue) alors P(tu) = 0 Vu. 

De même P(A) ~ 1 n’implique pas que A soit l’événement certain : on parlera d’événe¬ 
ment presque certain et dans le cas précédent d’événement presque impossible. 

Les événements de probabilité nulle sont en réalité très communs, comme on le verra 
dans l’étude des variables aléatoires continues possédant une densité : tous les évènements 
[X = x) sont de probabilité nulle mais aucun n’est impossible. La variable X prend une 
valeur précise une fois l’expérience réalisée. Cela est comparable au fait qu’un intervalle de 
longueur donnée / est formé d’une infinité de points de longueur nulle. 

1.3 LOIS DE PROBABILITÉS CONDITIONNELLES, 
INDÉPENDANCE 

Les concepts suivants sont purement probabilistes. 

1.3. B Introduction et définitions 

Supposons que l’on s’intéresse à la réalisation d’un événement A, tout en sachant qu’un 
événement B est réalisé (Fig. 1.1). Si A et B sont incompatibles la question est tranchée : A 
ne se réalisera pas, mais si A 0 B r 0, il est possible que A se réalise ; cependant, l’univers 
des possibles n’est plus fl tout entier, mais est restreint à B ; en fait, seule nous intéresse la 
réalisation de A à l’intérieur de B, c’est-à-dire A H B par rapport à B. 



Figure I.l 
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Ceci justifie la définition suivante : 

DÉFINITION 

j Soit B un événement de probabilité non nulle. On appelle probabilité conditionnelle de 
1 A sachant B (ou encore de A si B) le rapport noté P(A/B) : 

i , P(A n B) 

I P(A B) = — - 

i P(B) 

Il faut s’assurer que le nom de probabilité est justifié. Vérifions les axiomes : 


^ . F(fi(1 B) P(B) 

P(DJB) = — -- = = 1 

' P(B) P(B) 


p LU//* 


LU, nB 


U (Ai n B) 


P(B) 


P(B) 


~ P(A, n B) ^ 

?-^ir = ? w ' /S) c - qi - d 


On peut donc munir (fl, c €) d’une nouvelle loi de probabilité, la loi de probabilité condi¬ 
tionnelle à B fixé et ceci pour tout B de probabilité non-nulle. 

Il sera nécessaire d’étendre la notion de loi de probabilité conditionnelle lorsque B est 
de probabilité nulle (rappelons que la tribu % contient de tels événements) : cela sera fait au 
chapitre 3 dans certains cas particuliers. 

n Exemple : En fiabilité (ou en assurance sur la vie), on considère la fonction de survie 
R(t) définie comme la probabilité qu’un individu vive au-delà d’une date t : R(t) = P(X > /). 
Cette fonction définit une loi de probabilité sur R + et : 

P(t ] < X < t 2 ) = RUA - RUi) 

La probabilité conditionnelle de défaillance (ou de décès) entre t } et t 2 sachant que 
l’individu a déjà fonctionné (ou vécu) jusqu’à f, est : 


P(t ] ^X< UJX> /,) 


RUA- RUA 
RUA 


Pour la loi de survie exponentielle P(X > t) = exp (—et) on constate que cette probabilité 
conditionnelle vaut : 


1 - exp(-c Ui ~ t,)) = P(X < t 2 - tA 

il n’y a pas de vieillissement : la probabilité de fonctionner pendant t 2 ~ t, à partir de t, est 
la même qu’au démarrage. Ce modèle est couramment utilisé en électronique. ra 
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1.3.2 Indépendance 

1.3,2.1 Indépendance de deux événements 


Définition 


A est indépendant de B si P(A/B ) = P(A). 


Autrement, dit, la connaissance de B ne change pas les « chances » de réalisation de A. 

Propriété 

A indépendant de B => B indépendant de A. 



On parlera désormais d’événements indépendants sans autre précision. 
En effet, si P{A/B) — P (A), alors : 


p(A n B) 

P{B) 


= P{A) 


et : 


P(B/A) = 


p(A n B) 
P(A) 


= P(B) 


On a démontré au passage l’importante formule : 


P(A n B) = P(A)P{B) 


si et seulement si A et S sont indépendants. 

N.B. : La notion d’indépendance n’est pas une notion purement ensembliste comme l’in¬ 
compatibilité : deux événements peuvent être indépendants pour une loi de probabilité P 
et pas pour une autre P'. On s’en convaincra en vérifiant qu’en général si A et B sont indé¬ 
pendants, ils ne le sont plus conditionnellement à un troisième événement C. 


1.3.2.2 Indépendance deux à deux et indépendance mutuelle 

Soient A,, A 2 , .. A„ des événements ; ils sont dits mutuellement indépendants si pour 
toute partie / de l’ensemble des indices allant de 1 à n on a : 


P 


n A/ 


i 


= n m,) 


I 


Cette condition est beaucoup plus forte que l’indépendance deux à deux, qui ne lui est pas 
équivalente mais en est une simple conséquence. 

Remarque : Dans les applications il est assez fréquent que l’on n’ait pas à démontrer 
l’indépendance de deux événements car celle-ci est une propriété de l'expérience aléatoire. 
Ainsi lorsqu’on procède à un tirage avec remise de n individus dans une population finie les 
événements relatifs aux différents tirages sont indépendants entre eux par construction. 
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1.3.3 Formules de Bayes 

Elles ont pour but d’exprimer P{A/B) en fonction de P(B/A). 
première formule de Bayes : 


. P(A B)P(B) 
P(B A) = — 7 

P (A) 


Il suffit d’éliminer P(A H B) entre P(A/B) = 


P(A H B) 

P(B) 


et P(B/A) = 


P(A fl B) 
P (A) 


Soit Bi un système complet d’événements. On peut écrire : P(A fl B { ) = P(A/P,)P(P0- 


Le théorème des probabilités totales devient donc : 


P(A) = 2 PiA/BJPiBù 


On en déduit alors la deuxième formule de Bayes : 


P(BJA) = 


PjA/BdPW 


rm Exemple : Dans une usine trois machines M u M 2 , M 3 fabriquent des boulons de même 
type. Mi sort en moyenne 0.3 % de boulons défectueux, M 2 0.8 % et A/ 3 1 %. On mélange 
1 000 boulons dans une caisse, 500 provenant de M h 350 de M 2 et 150 de M v On tire un 
boulon au hasard dans la caisse ; il est défectueux. Quelle est la probabilité qu’il ait été fabri¬ 
qué par Mi (ou M 2 ou M 3 ) ? 

Lorsque l’on tire un boulon au hasard les probabilités dites a priori qu’il provienne de M h 
M 2 ou M 3 sont évidemment P(M,) - 0.50, P(M 2 ) — 0.35, P(M a ) = 0.15. 

Lorsque l’on sait qu’il est défectueux, événement noté D, il faut alors calculer les proba¬ 
bilités conditionnelles : 


P(M,/D), P{M 2 /D\ P(M 2 /D) 

Comme on connaît P[D/M { ) = 0.003, P(D/M 2 ) = 0.008 et P{D/M 2 ) = 0.01 la deuxième 
formule de Bayes permet d’écrire : 

P(D/Mi)P(Mi) 


P(Mi /D) 


P{D / M i)P{M i) + P(D/M 2 )P(M 2 ) + P(D/M 3 )P(M 3 ) 
0.003 X 0.5 

0.003 X 0.5 4- 0.008 X 0.35 + 0.01 X 0.15 
0.26 


On trouverait de même P(M 2 /D) — 0.48 P(M 2 /D) = 0.26. 

Ce sont les probabilités a posteriori , sachant que le boulon est défectueux. On voit donc 
que la prise en compte d’une information (le boulon est défectueux) modifie les valeurs des 
probabilités de M { , M 2 et M y ™ 
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Le théorème de Bayes, simple conséquence des axiomes et de la définition de la 
probabilité conditionnelle, tient une place à part dans le calcul des probabilités en raison de 
son importance pratique considérable et des controverses auxquelles son application a donné 
lieu : il est à la base de toute une branche de la statistique appelée statistique bayésienne. 

Parmi les applications courantes citons : en diagnostic médical la révision des probabilités 
de telle ou telle affection après obtention des résultats d’examens de laboratoire, en matière 
financière la détermination du risque de faillite des entreprises après observations de certains 
ratios. 

Le théorème de Bayes est souvent appelée théorème sur la « probabilité des causes » ce qui 
se conçoit aisément sur l’exemple précédent. Son application générale a donné lieu à de vio¬ 
lentes critiques de la part des logiciens pour qui causalité et aléatoire sont antinomiques : il n’y 
a qu’une cause possible parmi des causes mutuellement exclusives et leur donner des proba¬ 
bilités n’aurait aucun sens. 

Certains auteurs interprètent le fait que les formules de Bayes ont été publiées à titre pos¬ 
thume (en 1763) par la crainte du sacrilège *. Thomas Bayes était en effet un écclésiastique 
et l’application de sa formule à la recherche des causes ultimes d’un événement aurait pu 
conduire à probabiliser l’existence de Dieu. . . 


1.4 RÉFLEXIONS SUR LE CONCEPT DE PROBABILITÉ 

La théorie mathématique des probabilités ne dit pas quelle loi de probabilité mettre sur 
un ensemble H parmi toutes les lois possibles (et elles sont nombreuses. . .). Ce problème 
concerne ceux qui veulent appliquer le calcul des probabilités, et renvoie à la nature 
« physique », si l’on peut dire, du concept de probabilité qui formalise et quantifie le sen¬ 
timent d'incertitude vis-à-vis d’un événement. 

1.4.1 La conception objectiviste 

Pour les tenants de ce point de vue, la probabilité d’un événement peut être déterminée de 
manière unique. 

1.4.1.1 La vision classique 

C’est celle qui est héritée des jeux de hasard. H est en général fini et des raisons de symé¬ 
trie conduisent a donner à chaque événement élémentaire la même probabilité : ainsi le lancer 
d’un dé parfait conduit à un ensemble fl à 6 éléments équiprobables. 

Le calcul des probabilités n’est donc plus qu’une affaire de dénombrement, d’où la célè¬ 
bre formule : 

Nombre de cas favorables 
Nombre de cas possibles 

L’analyse combinatoire fournit alors les réponses aux cas classiques. 

Cette approche ne s’étend pas aux cas où fî n’est plus dénombrable (voir plus loin) et 
repose sur une conception idéalisée de l’expérience aléatoire : les symétries parfaites n’exis¬ 
tent pas ; ainsi le dé parfait n’est qu’une vue de l’esprit et ses 6 faces ne sont pas en réalité 
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équiprobables en raison de la non homogénéité de la matière et surtout des gravures des 
numéros sur les taces. 

1.4.1.2 Un paradoxe célèbre 

Les limites de la vision classique apparaissent, nous semble-t-il, assez bien dans le célè¬ 
bre paradoxe de Bertrand. 

Considérons un triangle équilatéral et son cercle circonscrit. On tire une corde au hasard. 
Quelle est la probabilité que sa longueur soit supérieure à celle du côté du triangle ? 

Reproduisons ici les commentaires de Renyi (1966) : 

s Première solution. Comme la longueur de la corde est déterminée par la position de son 
milieu, le choix de la corde peut consister à marquer un point au hasard à l'intérieur du cer¬ 
cle. La probabilité pour que la corde soit plus longue que le côté du triangle équilatéral 
inscrit est alors évidemment égale à la probabilité pour que le milieu de la corde soit inté¬ 
rieur au cercle inscrit qui est de rayon moitié (cf fig. 1.2). 

Si l’on admet que la répartition de ce point est uniforme dans le cercle, on trouve pour la 
probabilité demandée : 

Ti(r/2) 2 _ 
irr 2 4 

a Deuxième solution. La longueur de la corde est déterminée par la distance de son milieu 
au centre du cercle. Par raison de symétrie nous pouvons considérer que le milieu de la corde 
est pris sur un rayon donné du cercle et supposer que la répartition de ce point sur le rayon est 
uniforme. La corde sera plus longue que le côté du triangle équilatéral inscrit si son milieu est à 
une distance du centre inférieur à r/2 ; la probabilité cherchée est alors 1/2 (ç/.‘ fig. 1.3). 




P 0 



Figure 1.4 
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® Troisième solution. Par raison de symétrie nous pouvons supposer qu’on a fixé une des 
extrémités de la corde, soit P Q . L'autre sera choisie au hasard sur la circonférence. Si l’on admet 
que la probabilité pour que l’autre extrémité P tombe sur un arc donné de la circonférence est 
proportionnelle à la longueur de cet arc, la corde P () P est plus grande que le côté du triangle 
équilatéral inscrit quand P se trouve sur l’arc P i P 2 donc la longueur est le 1 /3 de celle de la 
circonférence ( cf fig. 1.4) ; la probabilité est alors 1 /3. 

Il est clair que ces trois hypothèses de répartition, sont également réalisables. L’exemple 
parut paradoxal en son temps uniquement parce qu’on ne comprenait pas que des conditions 
expérimentales différentes pour le choix au hasard de la corde, dans les trois procédés décrits, 
conduisaient à des mesures-probabilités différentes sur la même algèbre d’événements. 

1.4.1.3 La vision fréquentiste 

Elle repose sur la loi des grands nombres (voir chapitre 2). Une seule expérience ne 
suffisant pas pour évaluer la probabilité d'un événement on va répéter un très grand nom¬ 
bre de fois l’expérience. Ainsi du lancer d’un dé : la probabilité d’observer la face 6 est 
la limite du rapport : 

Nombre de 6 obtenus 

—---— = y 

Nombre d’essais 

lorsque le nombre d’essais augmente indéfiniment. En effet la loi des grands nombres assure 
que/converge vers la probabilité p de l’événement. 

Du point de vue pratique il est clair que la vision fréquentiste ne permet pas de trouver la 
probabilité d’un événement puisqu’un tel processus nécessitant une infinité d’observations 
est physiquement irréalisable : cela permet tout au plus de donner une définition de la pro¬ 
babilité comme limite d’une fréquence. Remarquons que dans la conception fréquentiste il 
est impossible de donner une valeur et même un sens à la probabilité d'un événement non 
répétable du genre « neigera-t-il le 25 octobre 2990 » ; ce qui limite le champ d’application 
du calcul des probabilités. 

Cependant la critique la plus radicale du point de vue fréquentiste est la suivante : la défi¬ 
nition de la probabilité repose sur la loi des grands nombres, or celle-ci est un théorème de 
probabilités qui suppose donc défini le concept de probabilité : il y a donc un cercle vicieux. 

1.4.2 La conception subjectiviste 

Le point de vue classique étant trop limité, le fréquentisme logiquement intenable, la pro¬ 
babilité d’un événement sujette à révision en fonction d’informations nouvelles (théorème de 
Bayes), l’existence même de probabilités objectives a été niée par beaucoup. C’est ainsi que le 
magistral Traité de Probabilités de de Finetti ( 1974) commence par l’affirmation en lettres capi¬ 
tales « La Probabilité n'existe pas » et continue par : 

« L’abcmdon de croyances superstitieuses sur l’existence du phlogistique, de l'éther, de 
l'espace et du temps absolu... ou des fées, a été une étape essentielle dans la pensée scien¬ 
tifique. La probabilité, considérée comme quelque chose ayant une existence objective est 
également une conception erronée et dangereuse, une tentative d’extérioriser ou de maté¬ 
rialiser nos véritables conceptions probabilistes ! » 
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1.4.2.1 Mesure d'incertitude 

La probabilité objective d’un événement n’existe pas et n’est donc pas une grandeur 
mesurable analogue à la masse d’un corps, c’est simplement une mesure d'incertitude , 
pouvant varier avec les circonstances et l’observateur, donc subjective , la seule exigence 
étant qu’elle satisfasse aux axiomes du calcul des probabilités. 

Les tenants de l’école subjectiviste proposent alors des méthodes permettant de passer 
d’une probabilité qualitative c’est-à-dire d’un simple pré-ordre sur les événements, à une 
mesure de probabilité. 

Puisque la répétition n’est plus nécessaire on peut probabiliser des événements non répé¬ 
tables et étendre le domaine d’application du calcul des probabilités en particulier pour tout 
ce qui concerne les décisions économiques. 

1.4.2.2 Le bayésianisme 

Un pas de plus va être franchi par l’école bayésienne (ou plus exactement néo- 
bayésienne vu les deux siècles de décalage entre Bayes et ceux qui s’en réclament 
actuellement) qui va probabiliser tout ce qui est incertain et même des phénomènes non 
aléatoires. 

Pour illustrer la théorie bayésienne modifions quelque peu l’exemple précédent de 
la fabrication des boulons : supposons qu’il n’y ait plus qu’une machine et que l’on 
cherche à estimer le pourcentage p de boulons défectueux produit en moyenne par la 
machine : si l’on admet qu’il n’y a que trois valeurs possibles p h p 2 , p 3 respectivement 
égales à 0.3 %, 0.8 %, 1 % de probabilités a priori tt,, tt 2 , tt 3 respectivement, la solution 
est inchangée et la valeur la plus probable a posteriori est 0.008 (si l’on tire un seul bou¬ 
ton défectueux). Supposons qu’on tire maintenant n boulons et que le nombre de boulons 
défectueux soit k, la probabilité que le pourcentage de défectueux produit par la machine 
soit p 2 est alors : 

cjpjo -PirS 

Scfip/U 

;= i 

On peut encore généraliser et supposer que p prenne toutes les valeurs possibles dans 
l’intervalle [0, IJ. Si l’on connaît la loi de probabilité de p sur [0, 1] et qu’elle admet une 
densité f(p) par rapport à la mesure de Lebesgue, la formule de Bayes s’écrit : 


(voir chapitre 3). 


P(p/k) 


CnP k { 1 - p )" k f(p) 


fi 

C k 

^ /I 

J 0 


p k {l - p)" k fip) dp 


A condition de connaître une distribution de probabilité a priori sur les valeurs de p , on 
peut donc en déduire les valeurs de p a posteriori les plus probables, donc estimer p. 

On aura remarqué que p n’est pas aléatoire mais un paramètre fixe de valeur inconnue et 
que l’on a modélisé notre incertitude sur ses valeurs, par une mesure de probabilité. Mais 
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comment, choisir cette mesure a priori ? on retombe sur la difficulté signalée plus haut et, si 
cette probabilité est subjective, quel statut scientifique donner à une grandeur qui peut varier 
d’un observateur à l’autre ? Telles sont les critiques usuelles faites par les objectivistes. De 
plus on a montré qu’un ordre de probabilités donné n’induisait pas nécessairement une 
mesure de probabilité unique P sur O, compatible avec la relation d’ordre. P n’existe pas 
forcément ou encore, si P existe, P n’est pas toujours unique. 

Nous arrêterons là ces quelques remarques et sans prendre parti dans une querelle qui dure 
encore, rappelons que le modèle probabiliste a prouvé son efficacité dans de nombreuses 
applications mais que comme tout modèle ce n’est qu’une représentation simplificatrice de 
la réalité el que ses hypothèses doivent être mises à l’épreuve des faits. 

Nous renvoyons le lecteur intéressé par la philosophie des probabilités aux travaux de de 
Finetti (1974), Matalon (1967), Matheron (1978) et Savage (1954), cités en références. 



Variables aléatoires 



Dans ce chapitre, on étudiera uniquement les variables aléatoires réelles. Les variables 
qualitatives ou ordinales (à valeurs dans un ensemble quelconque ou muni d’une structure 
d’ordre) ne feront pas l’objet d’une étude théorique ; on les trouvera évoquées dans les 
chapitres consacrés à la statistique. 


2.1 LOI DE PROBABILITÉ ET MOMENTS 
D’UNE VARIABLE ALÉATOIRE RÉELLE 

2.1.1 Définition et fonction de répartition 

2.IJ.I Généralités 

Le concept de variable aléatoire formalise la notion de grandeur variant selon le résultat 
d’une expérience aléatoire. 

Considérons le lancer de deux dés parfaitement équilibrés : cette expérience se traduit par 
l’ensemble H de tous les couples de chiffres de 1 à 6 : 

H= {(1, 1) ; (1.2) ; ... ; (6, 6)) 


muni de la loi de probabilité P telle que P (eu) = —, Vweff. 

36 

Intéressons-nous à la somme des points marqués par les deux dés. On définit ainsi une 
application S de H dans l’ensemble E — {2, 3, . . ., 12) (fig. 2.1). 



Figure 2.1 
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Pour obtenir la probabilité d’une valeur quelconque de S, il suffit de dénombrer les en qui 
réalisent cette valeur. Ainsi : 

P(S = 5) = P(|(l,4)(2, 3)(3, 2)(4,1))) = A 

ou 

et généralement P(S = s) = P{{S' '(s))). 

On voit que, pour définir la loi de probabilité sur S , on transporte la loi de probabilité de 
fl sur E par l’application S. 

Si X est une application d’un ensemble probabilisé (fl, c €, P) dans E , il faut donc que 
E soit probabilisable, c’est-à-dire muni d’un tribu ,Tet que l'image réciproque de tout élé¬ 
ment de soit un événement, c’est-à-dire un élément de c €. On reconnaît ici la définition 
mathématique de la mesurabilité d’une fonction. 

Une variable aléatoire X est donc une application mesurable de (fl, % P) dans (E, PT). 

Lorsque E = [R, on utilise comme tribu la a-algèbre engendrée par les intervalles de !R ; 
c’est la plus petite cr-algèbre (autrement dit l’intersection de toutes les cr-algèbres) contenant 
les intervalles. Cette tribu est appelée tribu borélienne et est notée 59. 

Définition I 

I Une variable aléatoire réelle est une application mesurable de (fl, 9?, P) dans R muni 
de sa tribu borélienne (IR, 39). 


Pour tout borélien B, on définit P X (B) par : 

P, ï (B)=P((m|X(ü ) )e fl)) 
= />([X- | (fl)l) 

ceci définit une probabilité sur (IR, 39) d’où la : 


Définition 2 



On appelle loi de probabilité de X la mesure image de P par X et on la note P x . 


Pour une variable discrète, c’est-à-dire une variable ne pouvant prendre qu’un nombre fini 
(ou dénombrable) de valeurs .y,, .y 2 , . .., .y,„ la loi P x est constituée de masses ponctuelles. 
P x peut alors être représentée par un diagramme en bâtons. 

Ainsi, pour l’exemple du lancer de deux dés, on a la figure 2.2. 

2.1.1.2 Fonction de répartition 

La fonction de répartition d’une variable aléatoire X est l’application F de IR dans [0, 1] 
définie par : 


F(.v) = P(X < x) 
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6/36 



Figure 2.2 


Propriétés (sans démonstration) 


F est une fonction monotone croissante continue à gauche. En tant que fonction 
monotone, elle admet un nombre de points de discontinuité au plus dénombrable. 
Réciproquement, toute fonction monotone croissante continue à gauche telle que 
F(-o=) = 0 et F( + =») = 1 définit une loi de probabilité unique sur IR. 


Un exemple de fonction de répartition correspondant à une variable discrète (celle de 
S définie précédemment) est donné par la figure 2.3. 



La figure 2.4 est un exemple de fonction de répartition correspondant à une variable conti¬ 
nue (voir plus loin). 

L’importance pratique de la fonction de répartition est qu’elle permet de calculer la pro¬ 
babilité de tout intervalle de U : 


P{a < X < b) = F(b) - F(a) 
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2.1.1.3 Variables continues 


La notion de variable continue, ou plus exactement absolument continue, se confond avec 
celle de variable admettant une densité de probabilité. 

Définition 


Une loi de probabilité P x admet une densité f si, pour tout intervalle l de (R, on a : 


Pxd) = /(-v) dx = l/ÜO/U) d.v 

Jl J R 


(11/ est la fonction indicatrice de /). 


F est alors dérivable et admet/pour dérivée. On a donc : 



(fig. 2.5) 



Une densité /est donc une fonction positive d’intégrale égale à 1 : 
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On remarque que pour une variable à densité : 

P(X = x ) = 0 Va 


et on peut écrire : 


P(x < X < a + dA) = /(a) dA 


m Exemple : La variable X, dont la loi est définie par P(X > a) = exp(— Xa) pour tout 
a positif, admet pour densité : 

/(a) = X exp(— Xa) si a > 0 

/(a) = 0 si a < 0 (fig. 2.6) 



Elle est utilisée couramment pour représenter la durée de vie de phénomènes sans vieillis¬ 
sement (comme les composants électroniques). m 

2. I. 1.4 Taux instantané de défaillance 

Si X est une variable continue positive représentant une durée, on définit la fonction 
suivante : 


h(x) = 


m 

1 - Fi A) 


appelées selon les domaines d’application : « taux instantané de défaillance », « fonction de 
hasard » ou encore « quotient de mortalités ». Pour une durée de vie X , h( a) s’interprète comme 
la probabilité de décès immédiatement après a, sachant que l’on a vécu jusqu’à a. 

En effet, pour dA infiniment petit : 

. /'(a) dA 

P (a < X < a + dx/X > a = - L — - = //(a) d.v. 

1 - F{ a) 


1 - F( a) est appelée fonction de survie. 
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h(x) caractérise la loi de X car on peut retrouver F(x) à partir de h{. v) : 

h(.x) = ~ ln(l - F(x)) 
ax 

F(x) = 1 — exp(— \ h(t)dt) 

J o 

Une fonction h(x) croissante est caractéristique d’un phénomène de vieillissement. 

Si h(x) = c, il y a absence de vieillissement, le décès est dû à des causes aléatoires externes : 
X suit alors la loi exponentielle F(x) = 1 — exp(~c.v), qui sera étudiée plus loin. 


2.1.2 Loi d’une fonction d’une variable aléatoire Y = <p(X) 

On supposera X continue avec une densité/et une fonction de répartition F. 9 sera sup¬ 
posé dérivable. On recherche g et G densité et fonction de répartition de Y. 

2.1.2.1 tp bijective 

cp est donc monotone. Si 9 est croissante, on a F(x) — C( 9 (.v)) car X < x o Y < 9 (.v) d’où : 


G{y) - f(9“'(v)) 


(fig. 2.7a) 


En dérivant :f(x) — g(ip(x))ip'(x) soit : 


9(y) 


f(x) 

9'(x) 



ou encore : 


g(y) = 


f [9 '(y)] 

9l c P _ '(}’)] 


Si 9 est décroissante X < x « Y > <p(x), d’où : 


G(y) = 1 ~ F( 9 _1 (v)) 


(fig. 2.7b) 
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et en dérivant : 


g (y) = 


/(-v) 

<p'to 


Puisque cp est décroissante, tp' < 0, et on a la formule générale pour une application 
bijective cp quelconque : 


g(y) 


/(-y) 

<p'(-v)| 


5(y) = 


/[y '(y)] 
ç'IqF'O’)] 


m Exemple : 


V = exp(X) et X = ln Y 


g(y) 


m 

exp(.v) 


/(ln y) 


2.1.2.2 (p quelconque 

Le principe consiste toujours à identifier la fonction de répartition GO») en recherchant 
l’antécédent pour X de l’événement Y < y = cp(.v). 

Par exemple, si Y = /V" avec X défini sur K : P(Y < y) = P(~yÿ < X < + Vv) : 

G(y) = F(Vy) - F(~/ÿ) 




1 


0(v) = — (/(Vÿ) +/(-Vy)) 


M) 

en particulier g()>) = —si / est une fonction paire. 
Vv 


2.1.3 Indépendance de deux variables aléatoires 

Soient X et P deux variables aléatoires réelles définies sur le même espace probabilisé. 
Le couple (X, P) est donc une application mesurable de (fi, % P) dans U 2 muni de sa tribu 
borélienne. 

Définition 

| X et Y sont indépendantes si, pour tout couple de boréliens B ; et B jy on a : 

S P((X e B,) H (P g Bj)) = P(X e B,)P(Y e Bj) 
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En d’autres termes, la loi de probabilité P XY du couple (À r , K) n’est autre que la loi 
produit que l’on note : 


Pxr = p x ® Pi- 


Corollaire 

I X et Y sont indépendantes si et seulement si la fonction de répartition du couple 
(X, Y) définie par H(x, y) = P(X < x H Y < v) est égale au produit des fonctions de 
répartition respectives de X et de Y , appelées fonctions de répartition marginales : 

Hix, y) = F(x) G(y) 


Si X et Y admettent des densités/(.v) et g(y), alors le couple (X, Y) admet pour densité 
f(x)g(y). Dans ce cas, la réciproque est également vraie. 


2.1.4 Moments d’une variable aléatoire 

Une loi de probabilité peut être caractérisée par certaines valeurs typiques associées aux 
notions de valeur centrale, de dispersion et de forme de la distribution. 


2.1.4.1 L'espérance mathématique 

Pour une variable discrète, on définit l’espérance E{X) par la formule : 

E(X) = y,x t P(X = x,) 

i 

(si cette expression a un sens). E(X) est la moyenne arithmétique des différentes valeurs de 
X pondérées par leurs probabilités. 

Pour une variable continue admettant une densité, E(X) est la valeur, si l’intégrale converge, 

de xf(x) d.v. 

Jn 

Ces deux expressions ne sont en fait que des cas particuliers de la définition générale sui¬ 
vante : 


Définition 


X étant une variable aléatoire réelle définie sur (fl, r €, P), l’espérance mathématique 
cle X est , si elle existe , l’intégrale de X par rapport à la mesure P : 


E(X) = 


XdP 

J n 


D’après le théorème de la mesure image, on a : 


E(X) 


X dPyCv) 
J R 
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d’où en particulier si P x est absolument continue par rapport à la mesure de Lebesgue de [R, 
il existe une densité/(. ï) : dP x (x) =f(x) dx et alors on retrouve : 


E(X) = jxf(x) dx 

Il faut prendre garde au fait que l’espérance mathématique n’existe pas toujours. Ainsi, 
la variable X ayant pour densité sur U : 


m 


1 (loi de Cauchy) 

Tl(l + A' 2 ) 


a’a pas d’espérance car l’intégrale 


•U Tl( 1 + A 2 ) 


da diverge. 


Les propriétés élémentaires de l’espérance mathématique sont celles des intégrales et se 
déduisent de la linéarité. Si a est une constante : 


E{a) 

= a 

E(aX) 

= aE(X) 

EÇX + a) 

= E(X) + a 


La plus importante propriété est l’additivité : l’espérance d’une somme de variables aléa¬ 
toires (qu’elles soient ou non indépendantes) est égale à la somme de leurs espérances : 

E(Xi + X 2 ) = E{X y ) + E(X 2 ) 


A. Espérance d’une fonction <p(X) d’une variable aléatoire 

Par définition, £[cp(X)| = (tp 0 X) d P si cette expression a un sens. 
Jn 

En utilisant à nouveau le théorème de la mesure image, on a : 


E(ip(X)) = <p(.v) dP x (x 


Ce résultat très important est d’un emploi courant et permet de calculer l’espérance d’une 
variable <p(vY) sans avoir à déterminer la loi de <p 0 X. 

B. Inégalité de Jensen 

Si cp est une fonction convexe, on peut montrer, si les espérances existent, que : 

EjtpjX)) => <p(E(X)) 

On en déduit en particulier : 

£(M)> |E(X)| 

E(X 2 ) £ ( E(X )) 2 
E(exp(X)) > exp (E(X)) 
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C. Espérance d’un produit 

Si A r et Y sont deux variables aléatoires de loi conjointe P xy , on a, si l’expression a un sens : 


E(XY) = | A-y dP XY (x, y) 

Lorsque X et Y sont indépendants, dP xy (x, y) = dP x (x) <§> dP y (y) et l’intégrale double se 
factorise : 


E(XY) = x dP x (x) ydPy(y) 


d’où : 


X et Y indépendants => E(XY ) = E(X)E(Y) 


Attention : La réciproque est fausse et E(X)E(Y) = E(XY) n’entraîne pas en général 
l'indépendance de X et Y. 


D. Une interprétation statistique 

Reprenons l’exemple du lancer de deux dés. Par raison de symétrie. E(S) = 7. Supposons 
qu’on lance n fois les deux dés et que les réalisations successives de S soient .v 2 ,. 

Formons la moyenne s = - Ya, de ces résultats. 
n 

On montre alors que si n —* °°,s —* 1 en un sens qui sera précisé plus tard (loi des grands 
nombres, voir paragr. 2.7 et chapitre 12). 


E. Espérance et fonction de répartition 

Sous réserve de convergence de l’intégrale, on a pour une variable positive le résultat suivant : 



Figure 2.8 
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L’espérance d'une variable positive s’interprète donc comme l’aire située entre l’horizon¬ 
tale v = 1 et la fonction de répartition. La figure 2.8 correspond à la fonction de répartition 
d’une loi log-normale d’espérance 1 et d’écart-type 0.4. 

2.1.4.2 La variance 

On appelle variance de X notée V(X) ou cr~ la quantité définie par : 


0-2 = E{{X - ni Ÿ) = j {A - - mf d P x (x) 


où m = E(X). 

a s’appelle Y écart-type de X. 

La variance est donc le moment centré d’ordre 2 de la distribution et est une mesure 
de la dispersion de X autour de m. 

• Propriétés de la variance 

Comme E((X - a) 2 ) = V(X) + (E(X) - a) 2 (formule de Kônig-Huygbens) on en 
déduit que V(X) est la valeur minimale de E((X — a) 2 ) quand a varie. 

On en déduit la formule classique 

V(X) = E(X 2 ) - (E(X)) 2 

Par ailleurs : 

V(X-a) = V(X) 

V(aX) = a 2 V(X) et cr(aX) = \a\ cr(X) 

^(X) = 0 <=> X = a (presque sûrement) 

L’espérance et l’écart-type sont reliés par Vinégalité de Bienaymé-Tchebyshev : 

P(\X - E(X) I > ko-) £ 4 
K 


Démonstration 


cr 2 = (.v - m) 2 dP v (.v) > I (x - m) 2 d P x (x) 

JM J\X — m|>À<r 

car on restreint le domaine d’intégration d’une fonction positive. En minorant (.v — ni) 2 par 
k 2 cr 2 , on a : 


(.v - m) 2 dP x (x) > Ira 2 I d Px(x) 

X- J|.V—/n)>A(r 

Cette dernière intégrale vaut P (|X — w| > /ccr). ce qui établit la propriété. 
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I 

I 

Cette inégalité, dont l’intérêt théorique vient de ce qu’elle est valable quelle que soit la loi 8 
de X, n’a que peu d’applications pratiques, car la majoration qu’elle fournit est la plupart du Ü 
temps excessive. Ainsi pour une loi normale, P(\X — E{X)\ > 2a) — 0.05 alors que 1 
l’inégalité de Bienaymé-Tchebysliev donne 0.25 comme majorant. Remarquons, de plus, I 
que l’inégalité est inutilisable pour le < I. | 

n 

° Variance d’une somme de variables aléatoires |j 

V(X + Y) = E[(X + Y) 2 } - (E(X) + E(Y)) 2 

= E(X -) + E{Y 2 ) + 2E(XY) - E(X) 2 - E(Y) 2 - 2E(X)E(Y) 

= V(X) + V{Y) + 2 (E(XY) - E{X)E(Y)) 

On appelle covariance de X et Y la quantité : 

cov(X, Y) = E(XY) ~ E{X)E(Y) = E((X ~ E(X))(Y- E(Y))) 


donc : 

V(X + Y) = V(X) + V(F) + 2 cov(A, Y) 



En particulier : 

X et Y => V(X + Y) = V(X) + V(Y) 

indépendantes 

mais la réciproque est ici encore inexacte en général. 


• Variance d’un produit de deux variables indépendantes 
Un calcul élémentaire montre que : 

V{XY) = V(X)V(K) + V(X)(Æ(y)) 3 + V(Y){E(XŸf 

• Approximations de l’espérance et de la variance d’une fonction tp(X) 
Un développement limité à l’ordre 2 au voisinage de l’espérance m de X donne : 

/ _ _ O 

<p( x) ~ cp (m) - (x ~ m)cp'(w) + <p"(iw) 

En prenant l’espérance : 

E(ipOO) - ip(wi) - e( ^ X o m -j(pV0 


soit : 


E(<p{X)) 


tp(m) + - V(JO<p"(m) 


En élevant au carré tp(AT) — cp(m) et en prenant l’espérance, on trouve également [Lejeune, 
2004|: 


V(<pUO) - 









27 


2^iVariables aléatoires 

2 1.4.3 Autres moments 

On définit, si ils existent, les moments centrés d’ordre k : 



On a évidemment |Ji| = 0 et |x 2 = V(X). Si la distribution de la variable aléatoire est symé¬ 
trique» on a jx:* - i = 0 V/c. 

Les moments jjl 3 et jjl 4 sont utilisés pour caractériser la forme de distribution. 

Pour obtenir des quantités sans dimension, on utilise les coefficients d’asymétrie et 
d’aplatissement y, et y 2 (en anglais skewness et kurtosis) : 


La figure 2.9 donne quelques allures typiques de courbes de densité correspondant 
à certaines valeurs de y, et y,. 

On remarquera que y 2 est toujours supérieur à 1 car l’inégalité classique entre moyennes 
d’ordre p entraîne (jJk t ) ,/4 > (|a 2 ) l/2 => jx 4 > (|jl 2 ) 2 . 

De plus, on a toujours y 2 > 1 + (y,) 2 . 

Plus que l’aplatissement, le coefficient y 2 mesure l’importance des «queues» de 
distribution. 
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Inégalité de Markov : En utilisant la même méthode cjue pour 1 ' inégalité de Bienaymé- 
Tchebyshev, on montre que : 


2.1.4.4 Ordres stochastiques 

Les concepts de dominance stochastique sont utilisés dans différents domaines, en parti¬ 
culier en fiabilité pour comparer des fonctions de survie, et en théorie de la décision pour 
comparer des risques. 

A. Dominance stochastique d’ordre I 

On dit que X domine stochastiquement Y si la fonction de survie de X est supérieure à celle 
de Y : 

P(X > c) ^ P(Y > c) pour tout c 

ce qui revient à dire que la fonction de répartition de X est toujours inférieure à celle de Y. 


1 

0.8 

0.6 

0.4 

0.2 

0 


Théorème (admis) 

Pour que X domine stochastiquement Y , il faut et il suffit que E(f(X )) > E(f( K)) pour 
toute fonction f croissante. 

On en déduit que la dominance stochastique de X sur Y entraîne E(X) > E(Y). 

On peut montrer (exercice à faire . . .) la propriété suivante : si la fonction de hasard (ou 
taux de défaillance) de X est partout inférieure à celle de Y, , alors X domine stochastique¬ 
ment Y. C’est par exemple le cas de la durée de vie des femmes en France qui domine celle 
des hommes : non seulement l’espérance de vie des femmes est plus élevée que celle des 
hommes, mais également la probabilité de survie à tout âge. 




-3-2-10 1 2 3 

Figure 2,10 
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B Dominance stochastique d’ordre 2 

La dominance d’ordre 1 implique que les fonctions de répartition de X et Y ne peuvent 
se croiser. Une forme plus faible de dominance, qui autorise les croisements, est définie 
comme suit : 


Définition 

X domine stochastiquement Y a l'ordre 2 si leurs fondions de répartition sont telles que : 




F(x) d.v < G(.v) d.v pour tout c. 


L’inégalité porte cette fois sur les intégrales des fonctions de répartition. La dominance 
stochastique d’ordre 1 entraîne celle d’ordre 2. 



Figure 2.11 


Cette forme de dominance est utilisée en théorie du risque pour des variables positives 
représentant des gains aléatoires. Supposons de plus que X et Y ont même espérance : alors 
les aires hachurées sur la figure précédente sont égales. On voit intuitivement que la réparti¬ 
tion de X est moins dispersée que celle de Y. Un individu qui a de l’aversion pour le risque 
préférera donc X a Y. La dominance stochastique d’ordre 2 implique V(A') < Y] Y) mais est 
plus générale (la réciproque est fausse). 

On montre que si X domine Y, Y a la même distribution que X + e où e est une variable 
telle que E(e/X) = 0. Intuitivement, Y est « plus aléatoire » que X. 

Le théorème du paragraphe précédent est alors modifié comme suit [Rothschild et Stiglitz, 
1970] : 

Théorème 

S Poitr que X domine stochastiquement Y à l ’ordre 2, il faut et il suffit que E{f(X )) S: E(f( Y)) 
pour toute fonction f cwissante concave. 
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2.2 LOIS DE PROBABILITÉ DISCRÈTES 
D’USAGE COURANT 

2.2.1 Loi discrète uniforme 

X= {1,2, 3,. . //) 

P(X = 1) - P(X = 2) = • • • = P(X = n) (Fig. 2.12) 
P(X = k) = - 


1 ' 
n . 

' 1 1 1 • ■ • 

••■1 


1 2 3 

n 


Figure 2.12 


d’où 


E(X) = 


ii + 1 


par symétrie 


1 ;i + 1 

E(X) = - (1 +2 + ...+ii)«—— 

77 2 

£(X 2 ) = — (1 + 4 + 9 + ■ ■ • + 7i 2 ) 
n 

_ 1 «0» + l)(2n + 1) 

iitA J-- 

77 6 




(77 + l)(2/ï + 1) (72 + l) 2 


V(X) = ^ti(472 + 2 - 3(71 + 1)) 


soit : 


V(X) 


rr - 1 


12 


2.2.2 Loi de Bernoulli de paramètre p 

C’est la loi d’une variable X ne pouvant prendre que les deux valeurs 1 ou 0 avec les 
probabilités p et 1 — p ; X est la fonction indicatrice d’un événement A de probabilité p : 

E(X) 

Comme X 2 = X , E(X 2 ) = p , d’où : 


V(X)=p( I - p) 
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2.2.3 Loi binomiale ;p) 

A. Principe 

Supposons que l’on repète n fois dans des conditions identiques une expérience aléa¬ 
toire, dont l’issue se traduit par l’apparition ou la non-apparition d’un événement A de pro¬ 
babilité /?, le résultat de chaque expérience étant indépendant des résultats précédents. Soit X 
le nombre d’apparitions de l’événement A parmi ces n expériences (0 On dit 

alors que X suit une loi binomiale de paramètres n et p notée 88(n ; p). Comme à chaque 
expérience numérotée /(/ = 1, 2, .. n), on peut associer une variable de Bernoulli X, de 

paramètre p, on a : X = d’où la deuxième définition de la loi binomiale : X suit une 

loi binomiale 3ô(n ; p) si X est une somme de n variables de Bernoulli indépendantes et 
de même paramètre p. 


De cette définition, découlent l'espérance et la variance de X, 

E(X) - HEiXj), donc : E(X } = np V(X) = SVCQ car les X t sont indépendants ; donc 


V{X) = np{ 1 - p) 


B. Loi de probabilité 


Afin de chercher l’expression de P(X = k), remarquons que toutes les configurations, 
telles que k variables X { prennent la valeur 1 et n - k la valeur 0, sont équiprobables et qu’il 
y a C'; t configurations de cette sorte (nombre de manières de choisir k X; parmi n). 

D’autre part : 

P(X, = JT, n ... n x„ = ,v„) = n P(X, = .V,) 

/= I 

/= 1 


car les X t sont indépendants : 


p(x x — .y i n x 2 = a 2 , ..., n x„ 


p-hi - p y--' 


Comme S.q = k, on trouve : 


P(X = k) = C\, P \ 1 - pf- L 


Cette formule justifie le nom de la loi binomiale car les P(X = k) sont les termes du 
développement de (p 4 - (1 — p)f selon la formule du binôme de Newton (on vérifie au 

k —n 

passage que y,P{X = k) = 1). 

k — Q 

La figure 2.13 représente quelques diagrammes en bâtons correspondant à diverses 
valeurs de n et p. On notera que la distribution est symétrique si p = 1/2 et le devient 
approximativement sinon, dès que n est assez élevé. 
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0 123456789 10 


Figure 2.13 


Un résultat utile pour T utilisation des tables : si X suit une loi binomiale £ft(n ; p), n - X 
suit alors une loi binomiale S8(/z ; 1 — p). 

Pour n grand, on verra plus loin que la loi binomiale peut être approximée soit par une loi 
de Poisson (si p est petit) soit par une loi de Gauss. 

La somme de deux variables aléatoires binomiales indépendantes et de même paramètre 
p est une variable aléatoire binomiale : 


X } = <%(n „ p) 
X 2 = 0H{iï 2 *p), 


=* X] + X 2 ~ S9(u | + n 2 , p) 


ebs.î Démonstration 

X ] : somme de n, variables de Bernoulli ; 
Xi : somme de tu variables de Bernoulli. 
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2 ®* 


+ X->, somme de », 4- n 2 variables de Bernoulli est bien une variable binomiale 
d’effectif égal à la somme des effectifs. b 

Condition nécessaire et suffisante : X, et X 2 doivent être indépendantes. 

2.2.4 Loi de Poisson 

C’est la loi d’une variable aléatoire entière positive ou nulle qui satisfait à : 



On peut vérifier tout d’abord qu’il s’agit bien d’une loi de probabilité : 

» x 

T) P(X — x) = exp(-X) = exp(-X) exp(X) = 1 

.t = 0 .r = 0 A - 


A la figure 2.12, quelques diagrammes en bâtons correspondent à diverses valeurs de X : 



Figure 2.14 


Le paramètre X représente à la fois l’espérance et la variance de X. 
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On obtient la loi de Poisson comme approximation de la loi binomiale dans le schéma 
suivant : 

Soit un événement A de probabilité p très faible (en pratique p < 0.1) que Ton essaie : 
d’obtenir quelques fois en répétant l’expérience un grand nombre de fois (en pratique n > 50). ■ 
Le nombre de réalisations de A suit une loi binomiale éü(n ; p) telle qu’en pratique : 

S9(ji, p) — @(np) 

c’est-à-dire : 

C„V'( 1 " P)”~ k =“ exp(-/ip) 

Nous allons, en fait, établir ce résultat sous la forme mathématique suivante : 

Théorème 

Soit X„ une suite de variables binomiales 0H(n, p) telles que n-—* 00 et p —* 0 de manière 
à ce que le pivduit np tende vers une limite finie X. Alors la suite de variables aléatoires 
X n converge en loi vers une variable de Poisson SP(k). 



Les notions de convergence seront étudiées en détail au paragraphe 2.7. 


Démonstration 


n{n — 1) ...(n— v + 1) 

Q/P(l - p)"~ x = ----;- pX 1 - p)"~ x 

a! 


(pny 


Ai 


1 - - Il 1 1 - 


A- - l 


(I - py~ x 


Faisons tendre n —> <». Tous les termes ^1-I ... I 1 — 

produit tend vers 1 car ils sont en nombre fini. 

Décomposons (1 — p)"~ x en (1 — /?)"( 1 — p)~ x 

(1 — p)~ x —* 1 car p —* 0. 
X\” 


a- - 1 


tendent vers 1, leur 


Quant à (1 — p)" — Il-il tend vers exp(—X) donc : 

n) 

C x pV ~ pY~ x -* j exp(-X) c.q.f.d. 

La suite des espérances des binomiales X„ : E(X„) = np converge vers X : 


E{X) = X 






2 œ 9 Variables aléatoires 


35 


Eneffet: E(X) = 2exp(-X)^ = É exp( —X) ——— 

r = 0 - V - r = I l- v 


car le premier terme est nul : 


E(X) = exp(-\)\2 


r -1 = y 

—— = exp(-\)\2-r 

v = ()(a “1)1 ,r = {) A! 


= exp( — X)X exp(X) = X 

La suite des variances des binomiales X n : V(X„) - np( 1 — p) tend aussi vers X car 
np * X, p ~ 1> 0. 


Montrons que 


V(X) = X 


m Démonstration 

V(X) = E(X 2 ) - [E(X)] 2 = E(X 2 ) - X : 

E(X 2 )= 2 A 2 exp(-X)^- = 2 Aexp(-X)—- 
.v=o A-! , v=1 (a - 1)! 

avec a = a — 1 + 1, il vient : 

E(X-)= iexp(-\) V + iexp(-\) X> 

x—2 (a- 2)! _ r=l (a-- 1)! 

E(X 2 ) = X 2 exp( —X) X - /V _ + Xexp(-X)2 -- - — 

r = : VA Z)! ,<•= ] (A i)! 

E(X 2 ) — X 2 exp(—X)exp(X) + X exp( —X)exp(X) = X 2 + X 
donc V(X) = X 2 + X - X 2 = X. 

Donc a = sa 

On verra plus loin que la somme de deux variables de Poisson indépendantes est encore 
une variable de Poisson. Lorsque X est grand, on verra que la loi de Poisson peut être 
approximée par la loi de Gauss. 

La loi de Poisson s’obtient aussi comme loi exacte du nombre d’événements survenant 
pendant une période donnée, sous certaines conditions (voir plus loin le paragraphe consacré 
au processus de Poisson). 


m Exemples d’application de la loi de Poisson : 

- loi du nombre de suicides par an dans un pays donné ; 

- loi du nombre d’appels téléphoniques pendant un intervalle de temps T ; 

- loi du nombre de pièces défectueuses dans une livraison importante, la production 
étant de bonne qualité ; 

- etc. En 
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2.2.5 Loi hypergéométrique n, p) ou du tirage exhaustif 


Soit une population de N individus parmi lesquels une proportion p (donc Np individus)' 
possède un certain caractère. On prélève un échantillon de n individus parmi cette popula¬ 
tion (le tirage pouvant s’effectuer d’un seul coup ou au fur et à mesure mais sans remise). 
Soit X le nombre aléatoire d’individus de l'échantillon possédant la propriété envisagée. 
X suit la loi hypergéométrique et l’on a : 


P(X - A') 


C x C n 


’Np^N- N[> 


r” 

'-A J 


min X — max (0 ; n — Nq) ; 
max X = min {n ; Np) ; 

C(v nombre d’échantillons possibles ; 


C'hp nombre de groupes de a individus possédant la propriété ; 


C" N J Np nombre de groupes de (n — a) individus ne possédant pas la propriété. 


Le nombre n/N est appelé taux de sondage. 

On peut considérer X comme une somme de n variables de Bernoulli X ( , X 2 , . .., X„ non 
indépendantes correspondant aux tirages successifs de n individus. 

Nous allons montrer que ces variables X,- ont Loutes le même paramètre égal à p. 

On sait queiTfX,) = P(X, = 1) et il est évident que P(X { = 1 ) = p. 

Cherchons E(X 2 ) = P(X 2 — 1). Comme X 2 et X, sont liés, on a : 

P(X 2 = I) = P(X 2 = 1|X, = 1)P(X, = 1) + P(X 2 = 1(X, = 0)P(X, = 0) 


soit : 


P(X, 


1 ) = 
Np 2 


Np - 1 


P + 


Np 


N - l ‘ N - 1 
p + Np - Np 2 


(1 - P) 


N 


(N - 1) 

= P -T = P 


N - 1 


De même E(X 3 ) — £(X 4 ) 


P- 


2.2.5 .1 Espérance de l’hypergéométrique 


E(X) = £(SX f ) = 2E(JQ E(X) = np 


L’espérance ne dépend pas de N et est la même que dans le cas du tirage avec remise 
(loi binomiale). 


2.2.5.2 Variance de I*hypergéométrique 


Comme il n’y a pas indépendance : 

V(X) = SVTO + 2 5cov(X p X/) = XW,) + Xcov(X„ X/) 






Variables aléatoires 3 / 

le terme 2VTO vaut "M 1 ~ P ) (terme binomia1 )- 

0n a : cov(X it X } ) = E(X t Xj) - p~ = P(X i X J = 1 ) - p 2 

et: PiXiXj = 1) = P(X, = l|X, = 1 )/»(*, = 1) = P(Xj =1|X,•=!)/; 

P(X- = J jX,- = 1 ) ne dépend pas des indices / et j et vaut par exemple 
_ /Vp - 1 

P(X 2 = 1|X. = » ~TXT- 


Donc : 


Np - 1 

cov(X„ X,) = p ^ z - - p- 


Comme il y a n{n — 1 ) manières de prendre des couples (X f et XJ), il vient : 


V(X) = np( 1 - p) + «(« - 1) Ip^-J- " T 7 " 


N - n 

V ^"JJ—J n P^ “P) 


2.2.5.3 Tendance vers la loi binomiale 

Si TV—> æ, $f’(/V, », p) tend vers S9(«, p). 

sa Démonstration 

C x Np C H N ~J Np __ Np! (/V(l - p))! »!(N - »)! 

C’a/ (A'p - -v)!-v! (» - a)! (N - Np - n + *)! NI 

Np\ Nq\ (N — »)! 


Np! _ Nq! (N - , 

” (Np — a*)! (Nq — n + a)! N! 


avec q — 1 — p. 


1-2-3 ■■■Np 


(Np- a-)! 1 • 2 • 3 • - • (Np — a) 


Np(Np - 1). . . (Np - a- + 1) 


Si N est grand, Np — 1 ~ Np — 2 - - ■ ~ (Np — x + 1 ) ~ Np car x est négligeable devant Np. 


Donc : 


(Np - a-)! 


Nq\ N\ 

De même :-—— — (Nq)" x et - — N" 

(Nq - n + a)! 1 (N - «)! 


^ C ^CV ^ANpY(NqY- x _ r „_ r 

donc :-C*- = Cl p x q" r c.q.f.d. ra 

C n N N" 

En pratique, ce résultat s’applique dès que n/N < 10 %, c’est-à-dire dès que la popula¬ 
tion est 10 Fois plus grande que l’échantillon, ce qui arrive Fréquemment en sondages. 
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Un échantillon de 2000 individus conviendra donc aussi bien pour faire un sondage dans 


une ville de 200 000 habitants que dans une ville de 2 millions d’habitants. 


,1 


2.2.6 Lois géométrique, de Pascal, binomiale négative 


llpSÉ 


La loi géométrique est la loi du nombre d’essais nécessaires pour faire apparaître un I 
événement de probabilité p : J| 


p{x — _v) = P ( i - P y 
En posant q = 1 — p, on trouve aisément : 


A' =1,2,..., » 


1 q 

E{X) = - U(A r ) = ~ 
P P- 


Yi = 


y 2 = 9 + — 
P 


La loi de Pascal d'ordre n est la loi du nombre d’essais nécessaires pour observer n fois ï 
un événement A de probabilité p. L’expérience devant se terminer par A, on a : 


P(X = a) = pC'y] pn-iqi*-D-(n-i) = C' x Z\p"q x -" pour a = n, n + 1,.. « 


Cette loi est la somme de n lois géométriques indépendantes (apparition de A pour la pre¬ 
mière fois, puis pour la deuxième fois, etc.), on a : 


E(X) - - 
P 


V(X) 


nq 


Yi = 


y 2 = 3 + 


p 2 + 6q 


nq 


P ‘ '4ncj 

La loi binomiale négative est la loi de }' = X — n : 

P(Y — y) = C"Iv_, p”q y 

Son nom vient du fait suivant : en posant Q — 1 /p, P = (I — p)/p, on a : 

P(Y - V) = c;;;J_i pyQ-"-> 

terme général du développement de ( Q — P)~ n d’où : 


E(X) = nP V(Y) = nPQ 


Y. 


P + Q 


~iïÏPQ 


y 2 = 3 + 


1 + 6PQ 


nPQ 


que l’on comparera aux moments de la binomiale S?(/j, p ). 


2.3 DISTRIBUTIONS CONTINUES USUELLES 

2.3.1 Loi uniforme sur [0, a] 

Sa densité est : 

f(x) = - sur [0, a] ; 
a 


/(a) = 0 ailleurs ; 




a 2a x 

Figure 2.16 


2.3.2 Loi exponentielle de paramètre X. 

Sa densité est f(x) — k exp(—X_v) si x > 0. 

On trouve sans difficulté : 

E(X) = 1A| | V00 = 1 A 2 ] Yi = 2 | |ï2 = 9 

En fiabilité, cette loi est très utilisée pour représenter la durée de vie de circuits électro¬ 
niques. L’espérance 1 /k est souvent appelée le MTBF {Mean Time Between Faillire) et \ le 

/•( x) 

taux de défaillance car h(x) = — 1 -= \ et est constant. 

1 - F{x) 
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2.3.3 Lois gamma 

La loi exponentielle est un cas particulier d’une famille de lois appelés lois 7 . 
Précisément, si X est une loi exponentielle de paramètre X., \X est une variable suivant 
une loi 7 ,. 

On dit qu’une variable aléatoire positive X suit une loi gamma de paramètre r, notée y r 
si sa densité est donnée par : 

/(.v) = = 7 -exp(-.v).ï r “ l 
r(r) 


11 s’agit bien d’une densité car f(x) est > 0 et /(.v) d.v = I par définition de V(r). Les 

Jo ' 

lois y r avec r entier > I sont aussi connues sous le nom de lois d’Erlang. 


2.3.3. 1 Espérance 


E(X) = ri 


En effet 


1 r r (r + 1) 

E{X) = —— .v r exp(— .v) cLv = ——-— r 

rooJo r (r) 


2.3.3.2 Variance 


V(X) = r 


En effet : 


V(X) = E(X 2 ) - [E(X)] 


»-j-r 

rooJx 


.v r+1 exp(— x) d.v — r 1 


T(r + 2) T(r +1) 

V(X) = K — - r 2 = (r + 1) - - r 2 - r{r + i) - r~ 

I (r) T(r) 

Cette loi présente donc une certaine analogie avec la loi de Poisson mais en continu. Les 
courbes de densité sont représentées à la figure 2.17. 

Les lois 7 vérifient la propriété d’additivité suivante : 

Théorème 

| Si X et Y sont clés variables indépendantes suivant respectivement des lois y r et y s , 

| alors X + Y suit une loi y r + s . 

1 Ce résultat sera démontré au paragraphe 2.5 de ce chapitre. 


Les lois 7 sont liées aux lois du \ 2 utilisées en statistique par une formule simple (voir 
chapitre 4) : 

Si X suit une loi y n 2X suit une loi xlr- 
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2.3.4 Lois bêta 
2.3.4./ Loi bêta de type I 

C’est la loi d’une variable X ; 0 ^ X ^ 1 dépendant de deux paramètres n et p dont la 
densité est : 

/(*) = Df 1 , -v"~'(l - n,p> 0 où B{n,p) = 

B(ipp) T(n + p) 

On trouve : 


Ces lois sont utilisées en statistique bayésienne pour représenter la distribution a priori de 
la probabilité d’un événement. 

L’allure de quelques courbes de densité est donnée par la figure 2.18. 


E{X) = 


n + p 


V(X) = 


np 


(n + p + 1)(« + p) 2 


2.3.4.2 Loi bêta de type II 

Soit X une variable suivant une loi bêta I Oh p) ; alors, par définition, Y — X/( 1 — X) suit 
une loi bêta de type II dont la densité s'obtient aisément par changement de variable : 

1 v' l_! 

f( y) =- 1 -— 0 < Y < co 

J ' B(n,p)V +y) n+p 


E(Y) 


V(Y) 


n{n + p — 1 ) 

(P ~ I )\p - 2) 


Propriété 


| Le rapport de deux variables indépendantes suivant des lois 7 ,, et y p respectivement suit 
I une loi bêta II(/t, p). 
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La démonstration est laissée au soin du lecteur. 

Les diverses valeurs de n et p font que cette loi s’adapte bien à la représentation de nombreux 
phénomènes aléatoires positifs (temps d’attente, durées de vie, méthode Pert avec durée aléatoire). 

Ces lois sont liées aux lois de Fisher-Snedecor utilisées en statistique (voir chapitre 4). 


2.3.4.3 Loi de l*arc sinus 


La loi bêta 1(1/2; 1/2) dont la densité est /( x) 
sinus car sa fonction de répartition est : 


— ; — porte le nom de loi de l’arc 

tt V.x ( 1 - x) 


F(x) = — arc sin (Va) 
tt 


On a E(X) = 1/2, V(X) = 1/8, 7 , = 0, 7 , = 1.5. 

Cette loi assez paradoxale, puisque l’espérance est la valeur la moins probable et les 
valeurs extrêmes sont les plus probables, s’applique en particulier dans certains phénomènes 
liés aux jeux de hasard. 

Par exemple, deux joueurs jouent à un jeu équitable (du type pile ou face). Soit S U S 2 ,.. ■ S n 
la suite des gains d’un des deux joueurs ; si X désigne la proportion du temps passé en gain 
positif, la loi limite de X quand n—*o 0 est la loi de l’arc sinus. Il y a donc plus de chance d’être 
constamment en gain ou constamment en perte que d’être dans le cas médian (c’est la loi de la 
persistance de la chance ou de la malchance ...). 
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Cette loi a pu être appliqué à la persistance du temps en météorologie et rend compte du fait 
qu’il est plus fréquent de battre des records (de froid ou de chaud) que d’avoir un temps moyen. 

2.3.5 La loi de Laplace-Gauss 

Cette loi joue un rôle fondamental en probabilités et statistique mathématique. Elle constitue 
un modèle fréquemment utilisé dans divers domaines : variation du diamètre d’une pièce dans 
une fabrication industrielle, répartition des erreurs de mesure autour de la « vraie valeur », etc. 

Malgré son appellation malencontreuse de loi normale^ 1 ), elle est cependant loin de décrire 
tous les phénomènes physiques et il faut se garder de considérer comme anormale une 
variable ne suivant pas la loi de Laplace-Gauss. Son rôle principal en statistique provient en 
réalité de ce qu’elle apparaît comme loi limite de caractéristiques liées à un échantillon de 
grande taille. Le théorème central-limite que nous établirons au paragraphe 2.7 montre que 
dans certaines conditions la somme, et donc la moyenne, de variables indépendantes et 
de même loi est asymptotiquement une loi normale. 

X suit une loi normale LG(w ; cr) si sa densité est (2) : 


1 

J(x) = —=exp 

crv27r 



Par suite de la symétrie de/et comme l'intégrale de X converge, 


E(X) = m 


Avec le changement de variable aléatoire 



, on trouve que la densité de 


U est : 


f(it) = -p= exp 
v27t 



U est une LG (0, 1), donc toute variable X LG (m ; cr) se ramène simplement à la variable 
U par X = m + c y U, 

Montrons que V(U) = 1 : 


V(U) = 




u-exp 




du 


Posons t = ir/2, il vient it du = dr : 


V(U) 


2 

ÆJ» 


exp(—/) dr = -j= T - 

VTT 



l isaCette dénomination fut introduite par K. Pearson qui voulait éviter les querelles d'antériorité concernant son introduc¬ 
tion en statistique et l'a d'ailleurs regretté par la suite comme l’indique cette citation : Many years ago i called the Laplace- 
Gaussian curve trie normal airve which name, while it avoids an imemational question of priority, has the disadvcintage ofleading 
people to believe thaï ail other distributions of frequency are in one senseor another'abnormal.Thal beliefis,of course, not justifiable, 
k bas led many writers to Iry and force ail frequency by aid of one or another pmcess ofdistonion into a 'normal'curve (paper read 
to the 5ociety of Biometricians and Mathematical Statisticians, June M, 1920). 

2waLa notation LG sera utilisée couramment dans cet ouvrage. La notation N(m ; cr) sera également utilisée. 
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comme V 

Il en résulte que cr est Técart-type de X. 

La fonction de répartition et la densité de X sont représentées sur la figure 2.19. 
Les points d’inflexion sont à ±a de part et d'autre de m. 


<k: 


V{U) 




- 4 <j -3a -2 g -g g 2g 3g 4o -4g -3g -2g -g g 2g 3g 4g 

Figure 2.19 


2.3.5.I Valeurs remarquables 


P(w — 1.64cr < X < m + 1.64a) = 0.90 

P(m — 1.96a < X < m + I.96a) = 0.95 

P(m - 3.09a < X < m + 3.09a) = 0.998 


2.3.5.2 Moments 


Ils existent pour tout ordre. 

Par suite de la symétrie, tous les moments d’ordre impair sont nuis. Calculons les 
moments d’ordre pair : 


P2A 


u~ K -== exp 
V277 




u 2k exp 



du 


Posons y = ir/2 : 

* 1 “ = V2ïI 


G* I ' x 


(2vf exp(-y) -p= = ~t= I y k 2 exp(-_v)dy 
y2y a/tt Jo 
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l k 


d’où 


Comme : F ( k + - 


(voir annexes) il vient : 


^ 2A ' r \ + i . 

I -3-5 ■ • • (2/c - 1WI\ 1 - 3 ■ 5 ■ ■ • 2£ — 1 


9* 


r| 5 


9* 




liojt = 1 - 3 - - - (2A: — 1) = 


(2/c)! 

2 À /c! 


on en déduit jjl 4 = 3, d’où -y 2 = 3. 

2.3.5.3 Additivité 

Les variables de Gauss possèdent la propriété d’additivité. 

Théorème 

I Si etX 2 sont des variables indépendantes suivant respectivement des lois LGO», ; a,) 
et LG(m 2 ; cr 2 ) alors X y 4- X 2 est une variable LG(in , + m 2 ; V(Tf + cr 2 2 ). 


Ce résultat fondamental sera démontré au paragraphe 2.6 a l’aide des fonctions carac¬ 
téristiques. 

On ne peut cependant pas dire que toute combinaison linéaire de p variables gaussiennes 
non indépendantes soit encore gaussienne. Il faut pour cela que le p-uple de variables suive 
une loi normale à / 7 -dimensions (dont c’est précisément la définition, cf. chapitre 4). 

2.3.S.4 Loi de U 2 


D’après la formule établie à la fin du paragraphe 2.1.2.2, la densité de T - U 2 est 


9(t) 


1 


M).. 

V/ V2 TT 


exp 


1 


1 


en remplaçant /(/) par- 7 =exp| — u 2 , on remarque que U 2 /2 suit une loi ou loi du 
V 2 tt \ 2 / 

khi-deux à un degré de liberté (voir chapitre 4). 


2.3.6 La Soi log-normale 


C’est la loi d’une variable positive X telle que son logarithme népérien suive une loi de 
Laplace-Gauss : 

ln X — LG(m ; a) 

Sa densité s’obtient par un simple changement de variable et on trouve : 

1 /ln x — ni N 


f(x) 


crx 


i V2tt 


exp 
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/ (J 2\ 


E(X) - expf m + — J 


V(X) = (exp(2/;z + cr 2 ))(exp cr 2 — 1) 


J 


On utilise parfois la loi log-normale à trois paramètres 7 , m, cr telle que : 

ln (X — 7 ) ~ LG(//z ; cr) avec X > 7 . 

La figure 2.20 représente la densité de la loi log-normale d’espérance 2 et d’écart-type 1 : 

(m = 0.58 cr - 0.47) 



2.3.7 Loi de Cauchy 


C’est la loi d’une variable X réelle de densité : 


/(A') 


1 

tt( I + x~) 


Sa fonction de répartition est F(x) = — arc tg a 4- - 

TT 2 

f A 

X ne possède aucun moment fini car l’intégrale -— dx diverge. 

Jr1T( 1 +.V-) 

On montre que la loi de Cauchy est la loi du rapport de deux variables LG(0 ; 1) 
indépendantes. Elle s’identifie à T, variable de Student de degré 1 (voir chapitre 4). 


2.3.8 Loi deWeibull 


Très utilisée en fiabilité, la loi de Weibull à deux paramètres donne la probabilité qu’une 
durée X de fonctionnement sans défaillance soit supérieure à x par ; 


P(X > x) = e 






2m Variables aléatoires 


47 


En d’autres termes, j suit une loi exponentielle. 


La densité de 


-fi)" 

X est : f(x) = — — J e W 

[3 VP/ 


Le paramètre a, qui est sans dimension, est appelé paramètre de forme. Selon ses valeurs, 
la densité de probabilité est plus ou moins dissymétrique. Le paramètre de forme est lié au 
vieillissement : quand il vaut 1 , on a une loi exponentielle caractéristique des matériels sans 
usure ni fatigue. Quand il est plus grand que 1, on est en présence de fatigue : le taux instan¬ 
tané de défaillance Ii(x) est alors croissant avec x : 

«-if 1 

Si a est inférieur a I, on a affaire à un matériel qui se bonifie avec le temps. 

..— Le paramètre p s’exprime dans la même unité que X (jours, heures, nombre de cycles, 
etc.). C’est un paramètre d’échelle lié à la durée de vie médiane par : 

médiane 

B =-r. 

P (ln(2))= 

La figure 2.21 donne la densité d’une loi de Weibull avec a = 2 et p — 1. 



Figure 2.21 


La relation E j^—j — H —j permet de calculer les moments de X. Dans l’exemple 

Vtt 3tt 

précédent a = 2 et p = 1, on trouve E(X) — —- et V(XT) = — (voir annexe 4). 

2 -4 

2.3.9 Loi de Gumbei 

Cette loi est utilisée pour les distributions de valeurs extrêmes (voir chapitre 12 ). Sous sa 
forme standard sa fonction de répartition est : 





Figure 2.22 


Ses moments sont : 

E(X) = 0.57722 . . . (constante d’Euler) 

™ “ T 

7, = 1.29857 
7 2 = 5.4 

La loi de Gumbel est utilisée pour modéliser des phénomènes tels que : crue maximale annu¬ 
elle d’une rivière, magnitude du plus grand tremblement de terre enregistré en une année, etc. 

2.4 LE PROCESSUS PONCTUEL DE POISSON 

Considérons une famille X, de variables de Bernoulli (X = l si un événement (arrivée 
d'un client, accident, appel téléphonique . . .) se produit à l’instant t) : on s’intéressera à 
la répartition des dates d’arrivée des événements, ainsi quà N, nombre d’événements entre 
0 et /. 
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2 4 | Flux poissonnien d’événements 

Un processus de Poisson représente l’apparition d’événements aléatoires E 2 . . .. Ej,, 
etc , satisfaisant aux trois conditions suivantes : 

• Les temps d'attente entre deux événements Ei E : , E 2 E v etc. sont des variables indé¬ 
pendantes ( processus sans mémoire ). 

• La loi du nombre d’événements arrivant dans l’intervalle (t ; t + T) ne dépend que 
de T. Si T — /, on notera c son espérance, dite « cadence ». 

• Deux événements ne peuvent arriver simultanément. 

Soit Pa(h) la probabilité qu’aucun événement ne se produise pendant une durée h : d’après 
la deuxième condition, p 0 (h) ne dépend que de /; et non de l’instant considéré. 

Soient trois instants t, t + h, t + h + k. La probabilité qu'il ne se passe rien entre t et 
f.-j- h + k estp 0 (/j + k) ; d’après l’axiome d’indépendance, on a : 

Po (k + k) = Pa(h) p 0 (k) V/;, V/c 

D’où le résultat : 

p 0 (h) = exp(-eVi) avec c > 0 

Nous montrerons par la suite que c est bien la cadence du phénomène. 



Figure 2.23 Une trajectoire d’un processus de Poisson avec c — 1 ; en ordonnée le nombre 
cumulé d’événements depuis t — 0. 


2.4.2 Étude de la durée T séparant deux événements 
consécutifs E-, et E ;+ , 

Soit T cette durée qui est une variable aléatoire, la probabilité que T> t est égale il la 
probabilité qu’il n'arrive rien pendant une durée t soit : 

P (T > /) = exp (-et) 
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d'où la fonction de répartition de T: P (T </)=]— expC—ff). La densité vaut alors 
f(t) = exp(-c/)c il s’ensuit que cT suit une loi 7 ,, donc E(T) = 1 le. 

2.4.3 Étude de Sa durée Y séparant n + I événements 

Y est une variable aléatoire somme de n variables indépendantes de même loi : 

Y = T, + T 2 + -b T„ 

soit : 

cY= cT t + cT 2 + ■ • • + cT n (fig. 2.24) 




T z 



E; E u 1 

_i___ j______ 

y 

Figure 2.24 


a. 


donc cY suit une loi ; la densité de Y est : 


Z, (y) 


= exp(—cv) 


(Q’)" 1 

(« ~ D! 


c 


2.4.4 Étude du nombre d’événements se produisant 
pendant une période de durée T fixée 

Théorème 

Le nombre d’événements suit une loi de Poisson de paramètre cT. 
m Démonstration : Soit AB la période d'étude (fig. 2.25) : 


A Ei E z 

1-1-1-— 

Figure 2.25 



+ 


B 


On a la relation évidente : P(N — n) = P(N ^ ;i) — P(N >; n + 1). 

La probabilité P(N S: n) est aussi la probabilité que la durée AE„ soit inférieure à T ; cette 
durée est constituée de AE } + E X E 2 + ■ • ■ E,^ { E„ qui sont des lois exponentielles indépen¬ 
dantes ; donc c AE n suit une loi y n et l’on a : 

[ T (et)"-' f T (et)" 

P(N = n) = I exp(— et)— -edr — I exp(— et) - c dt 

J 0 (n ~ 1)! Ju n\ 
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En intégrant par parties la première intégrale, il vient : 


(n - 1 )! 


T ( Ct f 7 ' ( {Ct)" 

exp(— c/) —— c d / = exp(-c/) d 

Ja 


= exp(— cT) 


{cT) n r ( et)" 

- + exp(— ct) - c dt 

ni J o ni 


donc : 


P {N = «) = exp(— cT) 


(cT)" 


E(N) = cT , en particulier si T ~ 1. 

On trouve E(N) = c ; c est donc bien la cadence définie au début de cette partie. 

Application importante ; Relation entre loi de Poisson et loi du x 2 
—Si TV suit une loi £P(\) on a : 


P(N < n) = P(\'l ill + l) > 2\) 


D suffit de considérer un processus de Poisson de cadence c - 1, observé sur une durée X. : 
P(N<n) = P{T y + T, + • • • + r„_, > X) - P( r Y„ + \ > X) 

= P(2 7 „. m >2X) = P(x^ i + 1 ) >2X) 

2.4.5 Étude de la répartition des dates E lf E 2f ...E n 
dans l’intervalle AB 


Posons A = 0 et cherchons la loi de probabilité conjointe des dates £j, E 2 ,.. E„ et de N 
nombre d’événements survenus. 

La probabilité pour que le premier événement se passe entre /, et /, + d/, est : 
c exp(-c7|) d/,. 

La probabilité conditionnelle que E 2 arrive entre t 2 et t 2 + dî 2 sachant £j est : 
c exp(—c(? 2 - tj) d/ 2 , etc. 

La probabilité qu’aucun événement n’arrive après E n sachant la date de E n est : 
exp(-c(T - /„)) ; d’où : 

fitu t 2 ,. . n) = c" exp(~cl’) 

La loi conditionnelle : 


fit b 7 2 > ■ - ■» = n) 


c" exp(-cT) 


exp( — cT) 


icTf 


ül. 

y 1 /! 


ni 


ce qui prouve que les instants /,. t 2 ,.. t n constituent un échantillon ordonné de la loi uni¬ 
forme sur [0, T] : en effet, si l’on s’intéresse seulement aux dates et non a leur ordre, il faut 
diviser par /i! qui est le nombre d’ordres possibles. 
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2.4.6 Le processus (N t ) 

D’après ce qui précède, N, suit pour tout / une loi de Poisson ëP(et). Comme E(N,) = et = 1 
V(N,), ce processus n’est pas stationnaire mais il est à accroissements stationnaires et j 

indépendants puisque V/i, N, + /l - N, — SP(h). ■; 

» 

La fonction de covariance de ce processus est facile à obtenir : f| 

si s > t : C(/, s) = cov(N, ; N s ) = cov(iV, \ N, + X) = V(N,) + cov(/V, ; X) : or X est : 
une variable indépendante de N, (accroissements indépendants) donc : 

- si s > I : C(t : s) = V(N t ) = c/ ; et on trouve de même si / > s : C(r, s) = es ; d’où : 1 

'51 

C(t ; s) = c inf (/ ; s). 

Cette fonction est continue en t = s donc le processus est continu en moyenne quadra-,J 
tique. Cependant, aucune trajectoire n’est continue puisque (N,) est une fonction aléatoire en I 
escalier (incréments de 1 à chaque événement). 1 

É 

2.5 CONVOLUTION j 

Un problème courant consiste à trouver la loi de probabilité d’une somme de deux varia- 
blés indépendantes Z = X + Y. 

2.5.1 Cas discret | 

Le théorème des probabilités totales donne la solution du problème : 

P(Z = z) = 2 p ( x = a- n y = z - x) = 2 P(X = 4 - v n y = y) 

.X y -:|i 

Lorsque X et Y sont indépendantes, on a : 

P(Z = z) = 2 P(X = x)P(Y = z ~ x) î 


Sinon, on peut toujours écrire : 

P(Z = z) = 2 P(X - x)P(Y = z ~ x/X = x) 

X 

Remarquons que, pour la sommation, .v ne prend pas nécessairement toutes les valeurs 
possibles de X mais uniquement celles compatibles avec l’événement Z = z. 

m Exemple : Soit X et L, deux variables de Poisson indépendantes de paramètres X. et |ül 
respectivement : 

P(X = .v) = exp(-M~ P (Y = y) = exp(-p)^- 
.v! y! 

P(Z = z) = T) exp( —X)-y exp( — pb —^—- 
,t = o -v! (Z ~ .v)! 


On a donc : 
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soit en multipliant et divisant par z! : 

exp( —(X + a)) 

p(z = z)= —— 2 c l 


,r = 0 


exp(-(X + jx)) 


(X + fx)~ 


2 — x + Y est donc une variable de Poisson .^(X + jx). n 

2.5.2 Cas général 

La loi de probabilité de Z = X + Y s’obtient grâce au théorème de la mesure image : en 
effet la loi de Z n’est autre que la mesure image de P xy par l’application de IR 2 dans [R défi¬ 
nie par (x, y) -* x + y. 

Lorsque X et Y sont indépendants, on a donc le résultat suivant : 


Théorème 

B La loi de probabilité de la somme Z de deux variables indépendantes est la mesure 
image de P x 0 P y par l'application (.v, y) —* .v + y de R 2 dans R. 


Notée P ,v : i : P Y = Pz (produit de convolution de deux mesures), elle est telle que pour tout 
borélien B : 


Pz(B) 


m 

= U 

JïZ 1 


x + y) d P x (x) 0 dPy(y) 


On remarquera le caractère symétrique en x et y de la formule précédente. 
En particulier, si X et Y admettent des densités, on a : 


P Z (B) = l B (x + y)f(x)g(y)dxdy 
Posons x + y = z, x = u et appliquons le théorème de Fubini : 

p x m= a„(z)/(H)gu - H)d«d; 

JR2 

= l fl ( 2 )dz I f(u)g(z ~ u)du 

J U. JD X 

D’après la définition des variables continues, on en déduit que Z admet pour densité : 


k(z) = | f(u) g(z - u) du = g(y)f{z - y) dv 
Jp v Jd, 


les domaines D x et D y étant les ensembles de valeurs de X et de Y respectivement compati¬ 
bles avec l’événement Z= z. 
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Par intégration, on en déduit : 


" 

J B 


P{Z < Z) = K{Z) = f(x) G(z - x)dx = g (y) F(z - v)dv 


r 

J D,. 


Géométriquement, K(z) représente la mesure du domaine hachuré (fig. 2.26), 



2.S.3 Applications 

2.5.3. / Somme de lois 7 

Soit X de loi y r f(x) - —— exp(-.v) .v r_1 et Y de loi y s g(y) = —exp(-v) v r 
T(r) T(s) 

pendante. 


Kz) = 


exp(-.v) x r 1 =^— exp (—(î - x)) (z ~ xf 1 dx 
0 r(r) r(j) 


f: 


_ exp(-z) 

mm J 0 

Posons x = tz, il vient : 


,v r (z — A') ,r d.v 


r i 


Kz) 


d’où : 


Kz) 


exp(-z) 

F(/-)rG)j 0 

exp(—z)z r+J 


mm 


i r ~ l z r ~ ] (z - tzY~ l dt 

(1 - z)' -! df 


_r + .t- ] fl 

J- t r ~' 

GO J 0 


1 indé- 


k(z) = exp(-z) z r+I 'c 
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z-M étant une densité, Ja constante c vaut nécessairement —- puisqu’on reconnaît 

h '~' [ (7- + s) 

l’expression de la densité d’une loi 7 . On en déduit une preuve (probabiliste) de la formule : 


*1 
, 0 


(1 - dz 


mm 

r(r + s) 


Donc si X est une y r et Y une 7 ,. indépendante, X + Y est une 7 r + s . 

2,5.3.2 Somme de lois uniformes sur [0, S] 


Soient X et Y deux variables continues uniformes sur [0, 1 ]. La loi de leur somme s’obtient 
par l’argument géométrique suivant : le couple (X, Y) est uniformément réparti sur le carré 
unité et l’événement Z < z correspond à la zone hachurée dont il suffit alors de trouver 
la surface. K et k ont deux déterminations mais sont continues (fig. 2.27). 



K(z) = P(Z<z) = -^ 
K(z) = z 



z > 1 


K(z) = 1- 


(2 -z)‘ 


K(z) = 2- z 


Figure 2.27 


2.6 FONCTIONS CARACTÉRISTIQUES 

2.6. S Définitions et principales propriétés 

2.6.1.1 Définition 

La fonction caractéristique d’une variable aléatoire réelle X est la transformée de Fourier 
de sa loi de probabilité. Elle est notée cp x et on a : 

<Px(0 ~ E [exp(zïX)] = exp(/7.v) dP x (x) 

Jü 

Cette fonction existe toujours car P x est une mesure bornée et |exp(z/X)[ = 1. Il s’ensuit 

que la fonction caractéristique est continue. 
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Lorsque X possède une densité : | 



2.6.1.2 Fonction caractéristique d’une forme linéaire 


9 u(0 = <px&0 | 

Vx+Jj) = exp(i7fl)tpy(r) | 

et on en déduit, si X est une variable d’espérance m et d’écart-type o\ en posant 1 
U = (X- m)/cr : 

•W'> = fi/W = exp ( _ ïr)‘ p -'(5 : ) 

<r ... . .. 

<Pv(0 = exp(/7/«) <Pu(o-/) I 

2.6.1.3 Convolution 

La fonction caractéristique se prête bien aux additions de variables aléatoires indépen¬ 
dantes : la fonction caractéristique d’une somme de variables indépendantes est égale au 
produit de leurs fonctions caractéristiques : 

cp A>K (/) = tpv(/) tp r (r) 

En effet : 

<Px t +x 2 (0 = E [exp(/7 (Y, + X 2 ))] = E [exp(z7Y,) exp {itX 2 )] 

si Y, et X 2 sont indépendantes, il en est de même pour exp(z7Y,) et exp(/7Y 2 ) et l’espérance 
du produit est alors égal au produit des espérances. Notons au passage qu’il ne s’agit donc 
pas d’une condition nécessaire et suffisante d’indépendance. 

2.6.1 A Cas d’une distribution symétrique 

Supposons la loi de X symétrique par rapport à l’origine. Alors la fonction caractéristique 
de X est réelle : 

<P.v(~0 = exp(—itt) cLPv(.v) = exp(itx) dP x (~x) 

Jr J h 

La première intégrale vaut cp v (r) et la deuxième est égale à cp v (/) à cause de la symétrie car 
dP x (x) = dP x (- x). 


2.6.1.5 Dérivées à l’origine et moments non centrés 


Notons tout d’abord que cp A -(0) = I car tp v (0) = f dP\(x) P x est une mesure de masse 
totale égale à I. 
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Si les dérivées existent jusqu’à l’ordre k , on a : 

qj'f’fO) = i l E(X k ) 


En effet, = J iixf exp(;7.v) dP x (x) par dérivation sous le signe somme. En particulier : 

cp.v(O) = iE(X) 

<p£(0) = ~E(X 2 ) 

Si tpy(/) est indéfiniment dérivable, la formule de Mac-Laurin donne : 

<p.v(f) = idi*£(X‘) 

Jt= o k! 


2.6.1.6 Unicité et inversion de la fonction caractéristique 


D’après les propriétés des transformées de Fourier, deux variables ayant même fonction 
caractéristique ont même loi de probabilité: la fonction caractéristique détermine donc 
de manière unique une distribution de probabilité d’où son nom. 

Les formules d’inversion de la transformée de Fourier permettent d’obtenir la loi 
deX connaissant tp A -(/). 

Théorème 


r 

Si 1 | cp v (7)| dt < » alors X admet une densité f(x) continue et : 

JiR 


/(-V) = — I cp A -(t) exp(-/Lv) dt 


Sinon, on a toujours le résultat suivant (admis) : 


F(b) - F(a) = lim ^ 

lT\ 


+T exp (~ita) — exp(—/7Z>) 

Vx(0 -:-dr 


Une fonction quelconque n’est pas nécessairement une fonction de répartition ; de même, 
pour qu’une fonction ip(t) soit une fonction caractéristique elle doit vérifier certaines 
propriétés. Le théorème suivant, que nous ne démontrerons pas, identifie les fonctions carac¬ 
téristiques aux fonctions de « type positif ». 

Théorème (Bochner) 

I Pour qu 'une fonction continue tp soit une fonction caractéristique , il faut et il suffit que 
pour toute famille finie t 2 , . .., t n de réels et pour toute famille finie de complexes 

z |, 7 . 2 , ■ • z n on ait : 

2 2 *p(t/ - f/)*■ Fj ~ 0 

i -1 j= i 


L 
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2.6.2 Fonctions caractéristiques des lois usuelles 


2.6.2.1 Lois discrètes 


® Loi de Bernoulli : tp A (/) = p exp(/7) + q avec q — \ — p. 

® Loi binomiale: Comme X est une somme de n variables de Bernoulli indépendantes,;! 


on trouve : 


<P,y(0 = (P exp(îY) + qf 


® Loi de Poisson : 


ip v (/) = exp(X (exp(/7) ~ l)) 


^ ^ /X. exp(/7) T 

En effet : £[exp(/7X)] = ^expOEt) exp(-X)-— - exp(—\)2[-;- 

r— H -V! r = n\ -V! 


= exp(—X.) exp(X exp(77)) 


2.6.2.2 Lois continues 


® Loi uniforme sur [—a, a] : 


1 u i 

En effet : £[exp(77X)] = — -i;{exp(/V.v) dr =-[exp(/af) — exp(— iat)] 

2 aj lait 


d'où le résultat avec exp {iat) = cos at + i sin al. 

• Lois gamma : Si X suit une loi -y,, c’est-à-dire une loi exponentielle de paramètre 1, on a 


En effet : tp y {t) = exp(/tv) exp(— x) dv = exp(—(1 — it)x) di* 


D’où, pour tout n entier : 


«MO = 


d - uy 


car une -y,, est une somme de n -y, indépendantes. 


Pour r quelconque, cette formule se généralise et c p yr (l) = 


0 - (ty 


Remarquons que le calcul formel suivant conduit au résultat : 


exp(dv) — exp(-A-) * r 1 d.r = —- exp(-(l - it) x ) .v r 1 c\x 
E(r) I (r)Jo 
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en posant ( 1 - it)x 


= —— exp(—i/)[<' 

r(r)J K 


1 


(i - w 


cl U = 


roo 


î 


r(r)(i - ity n - uy 


Il convient cependant de justifier ce résultat car il s’agit d’une intégrale dans le champ 
complexe. Nous le laisserons au soin du lecteur. 

» Loi de Laplace-Gauss : Si U est la loi LG(0 ; 1 ) : 


<P„(0 = exp(-f-/2) 


On peut obtenir ce résultat directement car on sait que E(U k ) = 0 si k est impair et 
E(U 2k ) = 

..D’après la formule de Mac-Laurin : 




= y 


2 U 


0 


k\ 


= exp(-f 2/2 ) 


Remarquons qu’ici aussi un calcul formel (qui devrait être justifié par une intégration 
dans le plan complexe) donne le même résultat : 


-;= exp(—-v 2 / 2) exp(/7x) dx ,— 

v2Trr V2Tr 


h LM 4 


[A- - it] 2 t 2 /2 dx 


= exp(-/ 2 /2) J exp^-i [.v - it]J dx 

et l’intégrale vaut 1 car c’est l’intégrale de la densité d’une variable de Gauss imaginaire (!) 
de moyenne it et de variance 1. 

Si X est une LG(m ; a) : 

<p x (/) = exp (itm) exp 

on en déduit que la somme de deux variables de Gauss indépendantes est encore une varia¬ 
ble de Gauss : 

X { LG(;ri| ; CT,) vY 2 LG(/n 2 ; cri) 

‘P.y.+XjCO = 9x,U)<PxX0 ~ exp(/7(m, + m 2 ))&xj-t 2 




donc X , + X 2 suit une LG(m, + m 2 ; Vof + <j\ ). 
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2.6.3 Fonctions génératrices 1 

Il en existe deux formes assez voisines ; elles servent essentiellement à calculer les moments! 
de variables aléatoires et de sommes de variables indépendantes car la fonction génératrice d’un î 
produit de variables indépendantes est égale au produit de leurs fonctions génératrices. %. 

• Pour des variables à valeurs entières positives, on utilisera la forme suivante : 

Sait) = E(t s ) = S <”W = n) 

/ISO 

Par dérivations successives en zéro, on trouve facilement que ^^(O) = n\ P{X = n), ce! 
qui prouve que la fonction génératrice détermine la loi de probabilité de X. 

Sous réserve d’existence, les dérivées successives en 1 sont égales aux moments factoriels : 

*4(1) = E(X) ! 

8x0) - E(X(X ~ 1)) 

S.ni ) = E(X(X - 1 )(X - 2)... (X - n + 1)) 

• Pour des variables quelconques, on appelle fonction génératrice des moments : 

A/ V (f) = E(e' x ) 

qui est donc la transformée de Laplace de — X. Sous réserve d’existence, on a : 

E(X n ) = 0) 

Les fonctions génératrices sont liées à la fonction caractéristique par : 

gxO) = 9,v( — ' ln(r)) 

M x (t) = cp A -(— 17 ) 


2 . 




2.7.1 Les différents types de convergence 

Une suite (À' ;I ) de variables aléatoires étant une suite de fonctions de Cl dans (R, il existe 
diverses façons de définir la convergence de (X„) dont certaines jouent un grand rôle en 
calcul des probabilités. 

2.7././ La convergence en probabilité 
Définition 

| La suite (X„) converge en probabilité vers la constante a si, Ve et r| (arbitrairement 
I petits), il existe /t 0 tel que n > n (] entraîne : 
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P 

On note alors (X„) —* a. 

On définit alors la convergence en probabilité vers une variable aléatoire X comme la 
convergence vers 0 de la suite X„ - X . 

Lorsque E(X„) —■ * cl il suffit de montrer que V(X„) 0 pour établir la convergence en pro¬ 

babilité de X„ vers a. En effet, d’après l’inégalité de Bienaymé-Tchebycheff : 

V(X„) 

P( X„ - £(X„) > E) < 

£' 

p 

On en déduit donc sans difficulté que X„ ~ E(X„) —> 0, ce qui établit le résultat. 

2,7,1.2 La convergence presque sûre ou convergence forte 

Définissons d’abord l’égalité presque sûre de deux variables aléatoires : 

DÉFINITION 

X et Y sont égales presque sûrement si P ({(jj|X(üj) r Y(w)}) = 0. 

C’est l’égalité presque partout des fonctions mesurables. On définit donc ainsi des classes 
de variables aléatoires presque sûrement égales. 

La convergence presque sûre se définit alors par : 

Définition 

I La suite (X yi ) converge presque sûrement vers X si : 

/ , ({oi| lirnX„(w) ± X(w)]) = 0 

et on note X„ —> X. 


En d'autres termes, l’ensemble des points de divergence est de probabilité nulle. 
Remarquons que la limite de (X„) n’est pas unique mais que deux limites sont presque sûre¬ 
ment égales. 

Il est immédiat de montrer que la convergence presque sûre implique la convergence en 
probabilité. 

2.7,13 La convergence en moyenne d’ordre p 

Si E[(X„ - X) r ] existe, on a : 

Définition 

1 (X„) —* X en moyenne d'ordre p si E | |X„ — X| P ] —> 0. 


La plus utilisée est la convergence en moyenne quadratique si p ~ 2. 

La convergence en moyenne d’ordre p implique la convergence en probabilité. 
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2.7.1.4 La convergence en loi 

Bien que la plus faible, elle est très utilisée en pratique car elle permet d’approximer la ; 
fonction de répartition de X„ par celle de X. 

Définition 

I La suite (X„) converge en loi vers la variable X de fonction de répartition F si, en tout point 
de continuité de F. la suite (F„) des fonctions de répartition des X„ converge vers F. On 
note X„ X. 


Un théorème dû à Polya établit que si F est continue alors la convergence est uniforme. 

Pour des variables discrètes, la convergence en loi vers une variable discrète s’exprime par 
P(X„ — .y) > P(X = x). 

C’est ainsi qu’on a établi la convergence de la loi binomiale vers la loi de Poisson. ; 

Une suite de variables discrètes peut cependant converger en loi vers une variable continue 
(voir plus loin). 

On montre également que, si (X„) est une suite de variables de densités f, et X une variable 1 
de densité/, alors : | 

X„ J£ »X=tf,(x)->f(x) V.v 

La convergence en loi est intimement liée à la convergence des fonctions caractéristiques \ 
comme le précise le résultat fondamental suivant, que nous énoncerons sans démonstration : 

Théorème (Levy-Cramer-Dugué) 

| Si X„ X alors cp v (/) —> cp A (/) uniformément dans tout inten>alle fini u\. Si la 
suite des fonctions caractéristiques cp A (7) converge vers une fonction cp dont la partie % 
I réelle est continue à l’origine , alors cp est une fonction caractéristique et la suite X n 
j converge en loi vers une variable aléatoire X dont cp est la fonction caractéristique. 

La convergence en probabilité entraîne la convergence en loi et on a, pour résumer, la hié¬ 
rarchie suivante des convergences : 


Moyenne d’ordre p 


Presque sûre 



Loi 


2.7.2 Convergence en loi de la binomiale vers la loi de 
Laplace-Gauss (théorème de De Moivre-Laplace) 


Théorème 


X n étant une suite de variables binomiales £iï(n : p), alors 
notant q = 1 — p. 


x « ~ n P 

sfmj 


LG(0 ; 1 ) en 







j?@Variables aléatoires 


63 


de 


Démonstration : La fonction caractéristique de X„ vaut (p exp(z7) + I — p)" donc celle 
vaut : 

4npq 

itap ) 

V npq) 

itnp 


<p(f) = l P I + 1 “ P j exp 


ln ip = n ln p\ exp 


npq 


- 1 - 


4npq 


Développons au deuxième ordre l’exponentielle ; il vient : 


ln cp — n In 




pais le logarithme : 


ln cp — n 



_pr_ + p 2 t 2 
2npq 2npq 




, t- pt- r t- 

soit: incp = -— + — =—(p - 1) = 

2q 2 q 2 q 2 

car p = 1 — q. 

cp(/) —> exp( — î 2 /2) qui est la fonction caractéristique de la loi normale centrée-réduite. 


Application : Lorsque n est assez grand, on peut donc approximer la loi binomiale par la 
loi de Gauss. On donne généralement comme condition np et nq > 5. 

Il convient cependant d’effectuer ce que l’on appelle la correction de continuité : la 
convergence de la loi binomiale vers la loi de Gauss se traduit par le fait que les extrémités 
des bâtons du diagramme de la binomiale S9(/z ; p) sont voisines de la courbe de densité de 
la loi LG (np ; V npq ). 

On obtient donc une valeur approchée de P(X = a) par la surface sous la courbe de 
densité comprise entre les droites d’abscisse x — ^ et x + ^ (fig. 2.28). 


P(X = x) = P 


a - - - np 


< U < 


a + - - np 


Inpq 


V npq ! 


On aura alors : 


U < 


+ 


■ - 


P(X < A) - P 


'(npq ) 
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Figure 2.28 


m Exemple :X 59(40 ; 0.3) np = 12 ; npq = 8.4. La valeur exacte pour P(X — 11) est 0.1319. 
La formule d’approximation avec une loi LG(12 ; V2L4) donne : 


10.5 - 12 




< U < 


n.5 - n \ 
V84 J 


soit : P(—0.52 < U < - 0.17) = P(0M < U < 0.52) - 0.6895 - 0.5675 = 0.122 
Soit une erreur de moins de 1 %. 

Quant à P(X ^11) qui vaut exactement 0.4406, l’approximation normale fournit 
1 — P(U < 0.17) soit 0.4325. En l'absence de correction de continuité, on aurait trouvé 


P\U < 


11 — 12 \ 

Vsi J 


= P(U< —0.35) = 1 — P (U < 0.35) = 0.3632, ce qui est très imprécis, m 


2.7.3 Convergence de la loi de Poisson vers la loi de Gauss 

Théorème 

_ V rî 

Soit (A'J une famille de variables £P(X) alors si X —> », —j— LG(0 ; 1). 

vx 



m Démonstration 

9,v(0 = exp(X)(exp(ir - 1)) 


d'où : 


<Px-x(0 = 





exp 


X exp| 
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2 & 


comme 


exp fe 


1 + 


Vx 


t- 

2k 


il vient : 


cp Y _ x (r) — expfx + /ïVx — — — k — it'fk 

-(T ' 


exp 


t- 


La figure 2.29 illustre l’approximation de la loi de Poisson &{k) par la loi de Gauss de 
même espérance k et de même écart-type Vx. 

L’approximation est très satisfaisante pour k > 18. On trouvera en annexe d’autres formules 
d’approximation plus précises. On a, ici encore, intérêt à effectuer la correction de continuité. 




.300 


.200 


.100 


0.000 
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.100 


0.000 


X = 8.0 
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2.7.4 Le théorème central-limite 

L’étude de sommes de variables indépendantes et de même loi joue un rôle capital en 
statistique. 

Le théorème suivant connu sous le nom de théorème central-limite (il vaudrait mieux 
dire théorème de la limite centrée) établit la convergence vers la loi de Gauss sous des hypo¬ 
thèses peu contraignantes. 
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Théorème 


Soit (X,,) une suite de variables aléatoires indépendantes de même loi d'espérance 
jjl et d'écart-type cr. Alors : 

± ( *■ + *2 + • • • + x. - »A JC LG(0 ., 

v;; V cr / 


taa Démonstration 

1 (X\ + X 2 + • • • + X n — npA ^ X,- — [x 

V/? \ cr / /•= i ctV/j 

" Xi - IL 

Soit cp v (t) la fonction caractéristique de X ; la fonction caractéristique de -p— est 

;= i ct y n 

X - |x 

donc égale à [tp v (/)]". Or - j=- est une variable d’espérance nulle et de variance I /n. 

-— r- CTV/î 


X ~ |X 

Le développement en série de la fonction caractéristique de - j=- commence par 

CTV/7 


t „ . n 

1 -, les termes suivants sont des infiniments petits d’ordre 1 /n~. 

2 n 

" Xi - IL 

Donc, en élevant à la puissance /?, la fonction caractéristique de 2j - r~ est 

I CTS II 

( r 2 V' / t 2 \ 

équivalente à 11 — — I et tend si n —*» sc vers exp \ — — \ selon un résultat classique, m 

On remarque que, si les variables X ( - sont des variables de Bernoulli, on retrouve comme 
cas particulier la convergence de la loi binomiale vers la loi de Gauss, 

On peut démontrer un théorème encore plus général dû à Lindeberg : 

Théorème 

I Soient X,, X 2 ,. .., X n des variables aléatoires indépendantes pas forcément de même 

II 

loi et d’espérance nij et de variance aj. Soit Sj t = 2 fr T el F,( x) la fonction de 

répartition de (X, — /»,). 

Si la condition suivante est réalisée : 


lim TTt S -c : dF,(x) = 0 
ISn 1=1 J|.r|> eS„ J 


Î(X, - /u,) 


alors : 


U e LG(0 ; 1) 
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La condition de Lindeberg exprime que les variables 


Xj — nij 

-— sont « uniformément 

S„ 


petites» avec une grande probabilité. Le résultat veut dire qu’à force d’ajouter de telles varia¬ 
bles, on finit par obtenir une loi de Gauss. 

Ce phénomène est souvent exprimé de la manière suivante : si une variable est la résul¬ 
tante d’un grand nombre de causes, petites, à effet additif, cette variable suit une loi 
de Gauss. On peut y voir la justification de l’emploi abondant et souvent abusif de la loi de 
Laplace-Gauss comme modèle. 

Pour terminer, notons que l’existence des moments E(X) et V(X) est indispensable. La loi 
de Cauchy de densité-— sur IR n’a aucun moment et fournit un contre-exemple 

Tï( 1 + A'") 

X| 4- X-, 4- ■ ■ • + X n 

classique : on montre que---a meme loi que X quel que soit n. 




Couples de 
variables aléatoires, 
conditionnement 


L’étude de la loi de probabilité d’une variable aléatoire Y connaissant la valeur prise par 
une autre variable aléatoire X est fondamentale pour les problèmes d’approximation et de 
prévision. Il faut pour cela connaître en premier lieu la distribution de probabilité du couple 
(X, Y) qui est une application de (fl, c ë, P) dans (R 2 muni de sa tribu borélienne si il s’agit 
d’un couple de variables aléatoires réelles. 

Il n'est cependant pas nécessaire que X et Y soient à valeurs dans IR. 

3.1 ÉTUDE D’UN COUPLE DE VARIABLES DISCRÈTES 

On étudiera ici la distribution d’un couple de variables aléatoires à valeurs dans des 
ensembles finis ou dénombrables ; par exemple la distribution simultanée de la somme et du 
produit des points amenés par deux dés. 

3.1.1 Lois associées à un coupie (X, Y) 

Supposons que X et Y prennent des valeurs .y,- et Vy en nombre fini ou dénombrable. 

3.1.1.1 Loi jointe 

La loi du couple (X, X) P xy est alors entièrement définie 
par l’ensemble des nombres : 

Pxy U, ; yj) = P(X = Xi flf = v ; ) 

dans le cas fini cette loi de probabilité conjointe peut se 
mettre sous la forme d’une table. 

On note p i} — P(X = x ; fl Y = y,) et bien sûr ~ 1 • 

‘ j 

3.1.1.2 Lois marginales 

On appelle lois marginales les lois de probabilité de X et de Y pris séparément. On a d’après 
le théorème des probabilités totales : 

Loi marginale de X P(X — a,) — ^ p i} = p L 

i= i 
p 

- Loi marginale de Y P(Y = y f ) = 2 A; = P.y 

/= i 
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3.1.1.3 Lois conditionnelles 


Les évènements {X = a, } et {Y — Vj) étant de probabilités non nulles on définit alors deux 
familles de lois conditionnelles selon que l’on connaît la « valeur » de Y ou de Y. Rappelons 
qu’ici X et Y ne sont pas forcément des variables aléatoires réelles mais peuvent être des 
variables qualitatives. D’après le chapitre 1 on a : 

- Lois conditionnelles de X si Y = yj : 

. pu P(X = Xi n Y — y,) 

P(X = xJ Y = V;) = Ljl = — - J - -^ 

■ 1 P.j P(Y — yj) 

- Lois conditionnelles de Y si X — x, : 

, p, P(X = xi n Y = Vi) 

P{Y = y,-/Y = = —r— ‘ J 

Pi. P{ A - A i) 

Le théorème des probabilités totales (deuxième forme) permet d’écrire : 


P(X = x, n Y = yj) = = *i/Y = yj)P(Y = y,) 

j= I 


= f,P(Y = yj/X = x,)P(X = A-,0 
1 = 1 


Remarques : 

® Pour deux événements et B 2 relatifs à Y et X on a : 

P((Y e B 2 ) r\(Xe S,)) = ^P(Y e BjX = x)P(X = a) 

•ÏÉ fl | 

= | P(fe 5 2 /Y = x) dP x (x) 

JB, 

formule qui servira pour étendre la notion de probabilité conditionnelle lorsque X = x est de 
mesure nulle. 

® Il arrive fréquemment dans les applications que l’on utilise la démarche inverse : 
on connaît la loi conditionnelle de K à Y fixé et celle de Y et on en déduit alors la loi du 
couple. 

Les formules de Bayes permettent d’exprimer une loi conditionnelle en fonction de 
l’autre : 


et : 


P(X = Xj/Y = yj) 


P(Y = y,/X = x,)P(X = A',) 
£/>()' = yj/X = x, )P(X = x ,) 


PCX = x,/Y = yj)P(Y = y,) 

j,P(X = x l /Y = y,)P(Y = y J ) 
j-i 


P( Y = Yj/X = x,) 
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L’indépendance entre X et Y s’écrit : 

Pu = Pi. P.j Vi et j 

ce qui revient à dire que les q lois conditionnelles de X à Y fixé (en faisant varier Y) sont 
identiques ; il en est de même pour les p lois conditionnelles de Y à X fixé. 

3.1.2 Covariance et corrélation linéaire 

La covariance a été introduite au chapitre 2 pour des variables numériques. 

cov(X ; Y) - E((X - £(X))(L - E(Y)) = E(XY) - E(X)E{Y) 

On a : cov(X ; X) = V{X) et cov(K ; Y) = V{Y) 

On montrera plus loin que : 

(cov(X; J 7 )) 2 < V(JY)V(L) 

ce qui permet de définir le coefficient de corrélation linéaire p, qui est donc toujours compris 
entre — 1 et +1 : 


cov(X ; Y) 

p =- 

CT v o- r 

Pour deux variables indépendantes p = 0. Cependant, la réciproque est en général inexacte 
et un coefficient de corrélation linéaire nul n’entraîne pas que les variables sont indépen¬ 
dantes. Deux exceptions notables où non-corrélation et indépendance sont équivalents : les 
couples (X ; L) gaussiens (voir chapitre 4), et les couples de variables de Bernoulli (facile à 
montrer). 

Les valeurs limites — l et -I-1 sont atteintes si et seulement si il existe une relation linéaire 
entre Y et X. 

3.1.3 Moments conditionnels 

Supposons Y réelle mais pas nécessairement X qui peut être une variable qualitative. On 
peut alors définir, sous réserve de l’existence de ces expressions pour le cas dénombrable, 
l’espérance et la variance de Y à X fixé. 

3. 1.3.1 L'espérance conditionnelle 
Définition 

I On appelle espérance de Y sachant que X = ,v et on note E(Y/X = x) la quantité 
définie par : 


E(Y/X = .y) = Y yP{Y = y/X 


-v) 
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C’est donc l’espérance de Y prise par rapport à sa loi conditionnelle. 

On note que E(Y/X = .y) est une fonction de a : E(Y/X = a) = cp(A). 

Cette fonction ip s’appelle fonction de régression^ de Y en X. Son graphe est le lieu 
des moyennes conditionnelles de Y sachant X. 

On voit donc que E(Y/X = a) dépend des valeurs prises par X. On peut alors définir la 
variable aléatoire espérance conditionnelle, qui prend pour valeurs E(Y/X = x) avec les pro¬ 
babilités P(X = a) : 

Définition 

On appelle variable aléatoire espérance conditionnelle de Y sachant X et oti note 
E(Y/X) la variable définie par : 

E(Y/X) = cpOO 


Cette variable présente un certain nombre de propriétés remarquables. 

Tout d'abord la linéarité comme conséquence de sa définition en tant qu’espérance : 

E{Y { + YjX) = E{YJX) + E(YJX) 
mais surtout on a en prenant l’espérance de cette variable le : 

Théorème de l’espérance totale 


E[E(Y/X)] — E(Y)\ 


m Démonstration 

£[EOyX)] = 2E(T/X = x)P(X = x) = '2\2yP(Y = y/X = ,v)J P(X = x) 

.x x \ y / 

= 2>’XW = y/X = a )P(X = a) - 2>W = v) = E{Y) m 

y x y 

Ce théorème est un outil très puissant pour calculer l’espérance mathématique d’une loi 
compliquée mais dont les lois conditionnelles sont simples : on voit même que l’on n’a pas 
besoin de connaître explicitement la loi de Y (voir plus loin). 

Si i|/(X) est une autre variable fonction de X on a E[Y\\t{X)/X] = »|i(X)£î[T'/A^] ; la démons¬ 
tration sans difficulté est omise. Concrètement cette formule signifie qu’àX fixé est une 
constante et sort donc de l’espérance. 


IraCe terme de régression provient des travaux du statisticien Galton qui étudiait la taille des enfants V en fonc¬ 
tion de la taille de leur père X. Il avait constaté expénmentalement que la taille moyenne des fils dont le père avait 
une taille x supérieure à la moyenne E(X) était elle-même supérieure à E(Y) mais dans une moindre mesure 
E(Y/X = x) - E(Y) 


E(X) 


était inférieur à I ; il y avait donc régression au sens ordinaire du mot. 
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3 ,1.3.2 La variance conditionnelle 


DÉFINITION 

L On appelle variance de Y sachant cpie X = x et on note V( Y/X = x) la quantité : 
V(Y/X = x) = E[(Y - E(Y/X = x)) 2 /X = x] 

I] s’agit donc de l’espérance conditionnelle du carré de l'écart à l’espérance conditionnelle. 
Comme pour l’espérance, et puisque V(Y/X ~ x) = on définit ensuite la variable 
aléatoire variance conditionnelle : 

\\Y/X) = i|/(ÀQ = E[(Y - E(Y/X)) 2 /X] 

On a alors le résultat fondamental suivant : 


Théorème de la variance totale 



V(Y) = E[V(Y/X)\ + V[E(Y/X)} 


en donnant à l’espérance sa signification usuelle de moyenne on voit que la variance de Y est 
la somme de deux termes : la moyenne des diverses variances conditionnelles et la variance 
des diverses moyennes conditionnelles. 

m Démonstration 

V(Y) = E[(Y - E(Y)) 2 ] = E\(Y - E(Y/X) + E(Y/X) - E(Y)) 2 ] 
développons le carré en groupant Y — E(Y/X) et E(Y/X) - E(Y) il vient : 

V(Y) = E[(Y - E(Y/X) 2 \ + 2E[(Y - E(Y/X)){E(Y/X) - E(Y))] 

+ E[(E(Y/X) - E(Y)) 2 ] 

Le dernier terme est égal à V[E(Y/X)] par définition de la variance puisque E(Y) est 
l’espérance de E{Y/X). 

Le premier terme n’est autre que E[V(Y/X)\ : en effet en appliquant le théorème de l’espé¬ 
rance totale : 

E\{Y ~ E(Y/X)) 2 ] = E[E[(Y - E(Y/X)) 2 /X]\ 

et on reconnaît l'expression de V(Y/X). Notons que V(Y/X) n’est pas égale à [Y — E{Y/X)) 2 
ce sont simplement deux variables ayant même espérance. 

On vérifie que le double produit est nul en conditionnant à nouveau : l’espérance condi¬ 
tionnelle à X fixé de (Y - E(Y/X))(E(Y/X) - E(Y)) vaut alors : 

[E(Y/X) - E(Y)]\E{Y - E(Y/X))/X] 

puisque E(Y/X) — E(Y) est une constante à À' fixé (voir la dernière propriété de l’espérance 
conditionnelle énoncée au sous-paragraphe précédent). Quant à : 

E[(Y - E(Y/X))/X\ 

ce terme est nul, il suffit de développer. L’espérance conditionnelle du double produit est nul, 
il en est de même de son espérance. 

(on trouvera plus loin une démonstration géométrique plus rapide et plus élégante) m 
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3.1.3.3 Exemple d'utilisation de l'espérance et de la variance conditionnelle 

Un examen se déroule sous forme d’un questionnaire à choix multiple (QCM) où on 
pose 20 questions ; chaque question comporte quatre réponses possibles, dont une et une 
seule est la bonne ; une réponse juste compte 1 point, sinon zéro. 

On suppose que le programme de l’examen comporte 100 questions dont on tirera aléa¬ 
toirement les 20 de l’examen. 

Si l'on considère un candidat ayant appris une proportion p du programme, on étudie la 
distribution de sa note N. 


Solution : Parmi les 20 questions, un certain nombre X va figurer dans la partie 
des 100 p questions révisées et fournir automatiquement X points. Les 20 questions 
étant tirées sans remise parmi les 100, la loi de X est une hypergéométrique M(\00 ; 

20 ; p). . 

Un certain nombre de réponses pourront être devinées par le jeu du hasard parmi les 
20 — X questions non révisées, soit Y ce nombre. A chaque question non révisée est asso¬ 
ciée une variable de Bernoulli de paramètre 1/4. Si X = x est fixé, la loi de Y est alors une 
loi binomiale S9(20 — x; 1/4). 

On a donc N = X + Y avec Y/X 03(20 - X\ 1/4). X et Y ne sont pas indépendantes 
puisque la distribution conditionnelle de Y/X = x dépend de .v. 

Le calcul de la distribution de N conduit en tout état de cause à une expression difficilement 
manipulabie : 


P(N = n) = 2 p ( x = x)P(Y = n- x/X = x) 


,i=0 


= s 


jr = 0 


CfoctoC 


20—j 


100 / j '-' 100(1 -p) 


!(H) 



On peut cependant trouver aisément E(N) et V(N) : 

® Calcul de E(N) : 

E(N) = E(X) + E(Y) = E(X) + E[E(Y/X)\ 
E(X) = 20 p (loi hypergéométrique) 

E(Y/X) = ( 20-*)i = 5-j 
E[E(Y/X)] = 5 - - 5 ~ 5^ 


soit : 


E(N) = 15/? + 5 
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® Calcul de V(N) : 


V(N) = E[V(N/X)\ + V[E(N/X )] 

V(N/X = .v) - V\x + Y/X = x] - V| Y/X = x] = (20 - x) ^ ^ 


3 S 

V(N/X) = (20 - X)^-E[V(N/X)) =20(1 -/>) ~ = 
16 16 

E[N/X = _v] = a- + 1 (20 - a) = 5 + j 
E[N/X] = 5 + ~ n£(AVX)] = 71 W) 

4 16 

9 100-20 

= — 20/X1 - p) - 

16 1 1 100 - I 


15(1 - p) 
4 


V[E{N/X)\ = 


100/Xl - P) 
11 


V(N) 


15(1 ~ P) + 100/7(1 ~ p) _ 


4 


11 


P) 


15 lOOp 

T TT 


La figure 3.1 donne les variations de E(N) et de V(N) en fonction de p. 

Un taux de révision de 0.6 à 0.7 devrait donc assurer la réussite à l’examen avec une forte 
probabilité. 



Figure 3.1 
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3.1.4 Extension au conditionnement 

d’une variable continue Y par une variable discrète X 

Ce cas ne présente pas de difficulté. On définira d'abord la fonction de répartition 
conditionnelle : 


, P( Y < \ l~\ X ~ x) 

P(Y < y/X = x) =- p (X - = - t) -= G(v/.v) 

puis si elle existe la densité conditionnelle g(y/x) qui sera la dérivée de G en y. 
La densité marginale de Y s’obtient par : 

g(y) = Sg(y/x)P(X = x) 

X 

Si E(Y) existe, on prouve aisément que E(Y/X = x) existe également et vaut 


E(Y/X - x) = yg(y/x)dy 


Les formules de l’espérance totale et de la variance totale sont également valables. 
La formule de Bayes donne : 


P(X = x/Y < y) 


G(y/x)P(X = .y) 
G(y) 


mais l’écriture formelle : 


P(X = x/Y = y) 


g(y/x)P(X = x) 

g(y ) 


ne peut être pour l’instant justifiée car P(Y — y) = 0. 


3.1.5 Somme d’un nombre aléatoire de variables iid 

Le problème suivant est courant en assurance : au cours d’une période de temps donnée le 
nombre de sinistres survenus est une variable aléatoire N. Chaque sinistre a un coût aléatoire 
représenté par une variable X. 

Le montant total des sinistres est alors : 

S = X, + X 2 + ■ • • X N 

Si les Xj sont indépendantes et de même loi, les théorèmes de l’espérance et de la variance 
totale, en conditionnant par /V, permettent de montrer facilement que : 


E(S) = E(N)E(X) 

V(S) = E(N)V(X) + V(N)(E(X)Ÿ 
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3.2 EXTENSION À DES VARIABLES QUELCONQUES 

3.2.1 Lois conjointes et Sois marginales d’un couple de variables 
aléatoires réelles 

Si (X, F) est à valeurs dans IR 2 rappelons que la fonction de répartition du couple H( a\ y) 
se définit par : 

H(x, y) = P(X < .y H Y < y) 

Les fonctions de répartition marginales s’en déduisent immédiatement par : 

F(x) = H(x ; ») = P(X < x) 

G(y) = H(o o;y) = P(Y < y) 

Si le couple ( X , Y) admet une densité h{x, }’) on a : 


les densités marginales s’obtiennent par 

/(A') 

gU) 

Rappelons que si et seulement si les variables X et Lsont indépendantes on a : 

H(x,y) = F(x)G(y) V.v;y 
h(x, y) = f(x)g(y) V.v;y 

3.2.2 Conditionnement 

Le problème essentiel est de donner un sens aux expressions du type P(Ye B/X = ,v) et 
E(YfX = x) lorsque X = x est un évènement de probabilité nulle ce qui est toujours le cas 
lorsque X est une variable admettant une densité. 

3.2.2.1 Présentation naïve 

Lorsque X est une variable continue on peut songer à définir la Fonction de répartition 
conditionnelle de Y sachant que X =x comme la limite pour e tendant vers 0 de : 

P{Y < y H (.y <X< x + e)) _ H{ x + e ; y) - H(x ; y) 

P(x < X < x + e) ~ F(x + E) - F(x) 


= h(x. y) dy 


[ hU, 

J R 


x) cLv 
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Lorsque X possède une 
clH(x ; y) , 

./(.v) et que si ( X , 


dx 

fixé vaut alors 


densité /(.v) on « voit » que la limite de cette expression est 
Y) a une densité h{x, y) la densité conditionnelle de y à X = x 


Kx;y) 

m 


= giy/x) 


On conçoit cependant aisément qu’une telle approche est peu rigoureuse et ne recouvre 
en plus qu’une partie du problème : dans certaines applications il faut pouvoir conditionner 
par rapport à une variable quelconque pas nécessairement à valeur dans U ni dans un ensem¬ 
ble fini. Pour définir une espérance conditionnelle il Faut seulement que Y soit réelle et que 
E(Y) existe. 


3.2.2.2 Aperçus théoriques 

Vu sa complexité nous ne donnerons que les résultats les plus importants sans rentrer dans 
les détails des démonstrations qui figurent dans les ouvrages de « Théorie des probabilités » 
(Neveu (1964) ou Métivier (1972) par exemple). 

• Première présentation 

X étant une variable aléatoire quelconque de (fl, % P) dans un ensemble mesurable (E, C S) 
on définira la probabilité conditionnelle d’un événement A par rapport à X grâce au théorème 
suivant : 

Théorème 

Soit A e alors Vfî e % il existe une classe d’équivalence unique de fonctions de 
(E, %) dans [0 ; 1] notée P (A /X = x) telle que : 

P(A H [X e B)) = P(A/X = x) d P x (x) 

Jn 



La fonction P(A/X =x) n’est pas unique car une modification de celle-ci sur un ensem¬ 
ble de probabilité P x nulle ne change pas le résultat de l’intégrale. 

Peut-on choisir un représentant de cette classe pour tout A qui définisse une loi de proba¬ 
bilité conditionnelle sur O? Ce n’est pas sûr si X est quelconque et P(./X — x) n’est pas 
nécessairement une mesure de probabilité : ici se trouve la difficulté majeure de la théorie. 
Si un tel choix est possible on dit que c’est une « version régulière » de la probabilité condi¬ 
tionnelle par rapport à X, notée P(./X = .v). 

On peut alors définir l’espérance conditionnelle d’une variable T intégrable par : 


E(Y/X = x) 


y(ü>) d P(w/X = x) 
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. Deuxième présentation 

Les ouvrages récents de théorie des probabilités préfèrent partir de la définition 
de l'espérance conditionnelle grâce au théorème suivant qui étend la formule de l’espé¬ 
rance totale en intégrant sur un événement quelconque de E au lieu d’intégrer sur E tout 
entier. 

Théorème 

I Soit Y une variable aléatoire réelle de (fl, % P) dans (IR, ( M) telle que E(Y ) soit fini, et 
X une variable quelconque de (Cl, % P) dans (E, %) de loi de probabilité P x . 

Il existe alors une classe d’équivalence unique de fonctions P x intégrables de (E, 0) 
dans (R, SS) notée E(Y/X = x) telle que : 

y B g if 7(w) d P(tû) = E( Y/X = x) d P x (x) 

Jx-'(D) J 11 

Ceci définit alors de manière (presque sûrement) unique la variable aléatoire espérance 
conditionnelle E(Y/X). 

On en déduit alors la probabilité d’un événement/! quelconque de O conditionnellement 
àXen prenant pour 71a variable indicatrice de A : 

P(A/X) = E(1JX) 

Comme est intégrable la probabilité conditionnelle de A existe toujours. Le problème 
de l’existence d’une version régulière de la probabilité conditionnelle reste cependant 
entier, cette existence est nécessaire pour pouvoir calculer l’espérance conditionnelle par la 
formule : 


E(Y/X = x) = 7((o) d P((ù/X = x) 

Jn 

et pour pouvoir parler de distribution conditionnelle de 7 sachant X. 

La distribution conditionnelle de 7 sachant X — x est en effet définie comme la mesure 
image de P(./X — x) par 7 pour chaque a\ Il faut donc que P(./X = .v) soit une mesure de 
probabilité sur Cl. 

La preuve directe de l’existence de distributions conditionnelles dans les cas les plus 
usuels est donné par le théorème de Jirina : il suffît que E soit un espace métrique complet 
séparable (ou espace polonais), c’est-à-dire admettant un sous-ensemble partout dense, ce 
qui est le cas de KîL 

3.2.2.3 Ce qu*il faut retenir 

Il ressort des résultats précédents les propriétés utiles suivantes : si (X, 7) est un couple 
de variables aléatoires où 7 est à valeurs dans [R et A' à valeurs dans un ensemble fini ou 
dénombrable, où à valeurs dans IR ou (R p : 

- Il existe une mesure de probabilité conditionnelle P(./X = .v) sur fl. 

- Il existe une distribution conditionnelle de Y/X = x. 
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Si E(Y) existe, alors il existe une variable aléatoire espérance conditionnelle : E(Y/X) 
qui prend les valeurs E{Y/X = .y) avec la loi de probabilité P x ■ 


E(Y/X = .y) = J Y{ co) d P{u/X = .v) - J y dP(y/X = x) 
et E[E(Y/X)] - E(Y). 

Si V(Y) existe on a V(Y) = E(V(Y/X)) + V(E(X/Y)). 

Si le couple ( X , Y) est à valeur dans R 2 et possède une densité h(x, y) les densités 
conditionnelles existent et sont données par : 


g(y/x) = 


h(x ; y) 


/'(-v ; y) 
P(y) 


et on a E{Y/X — .v) = yg(y/x) dy ainsi que les formules de Bayes pour les densités 


, / , f(x/y )g( y ) T/ , N g(y/x)f(x) 

giy/x) = -j - f(x/y) = -F— -'— 

f(x/y)g(y) dy g(y/x)f(x) d.v 

JR J 5? 

Lorsque l’une des variables est discrète et l’autre possède une densité il suffit de rem¬ 
placer là où c’est nécessaire les intégrales par des sommes finies et les densités par 
des probabilités ponctuelles. 


3.3 SYNTHÈSE GÉOMÉTRIQUE 

Le cas où on n’étudie que des variables aléatoires réelles de moment d’ordre 2 fini est un des 
plus importants en pratique et est susceptible d’interprétations géométriques très éclairantes. 

3.3.1 Espace de Hilbert des classes de variables aléatoires 
de carré intégrables 

L’ensemble de toutes les variables aléatoires définies sur un même univers (en fait 
l’ensemble des classes de variables aléatoires presque partout égales) forme un espace de 
Hilbert Lr si l’on le munit du produit scalaire : 

( X, Y ) = E(XY) et de la norme : ||X|| = (E(X 2 )) la 

L’écart-type est donc la norme des variables centrées, et la covariance le produit scalaire 
des variables centrées. 

Si l’on considère l’ensemble des variables aléatoires constantes, on obtient une droite D 
de L 2 . Car si X est constante, aX l’est aussi. 

L’espérance mathématique de X est alors la projection orthogonale de X sur cette droite 
(fig. 3.2) : en effet, on sait que le minimum de E((X — a) 2 ) est atteint pour a = E(X), ce qui 
définit la projection orthogonale de X sur D. 
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Figure 3.2 


La Formule de Konig-Huyghens : 

E((X - a) 2 ) = V(X) + (E(X) - a) 2 

s’interprète comme le théorème de Pythagore appliqué au triangle rectangle À''. E(X), a. 

E(X) est, en d’autres termes, la meilleure approximation de la variable X par une constante 
(au sens de la norme de L 2 ). 

Comme cov(X, F) = ( X — E(X) ; F — E(Y) ) l’inégalité de Schwarz donne : 

|cov(X,i')| s ||X - E(JO|| ||r-£(r)|| 

soit : I covf.Y, 7) s v v O) 

covfY, F) 

Le cosinus de l’angle formé par X - E(X) et F - E(Y) vaut donc-. On retrou¬ 
ve le coefficient de corrélation linéaire p entre X et Y. ° r - vtTr 

Dans cet espace, la non corrélation se traduit donc par l’orthogonalité 

p = ± 1 si |cov(Y, F) j = cr A -cr v donc si (X — E(X)) et (F — E{Y)) sont proportionnelles 
soit : X — E(X) = a(F — £(F)). 

Le coefficient de corrélation linéaire est donc égal à± 1 s’il y a une relation linéaire entre 
les deux variables A' et F. 

La nullité de ce coefficient exclut la relation linéaire, mais n’exclut pas l’existence d’au¬ 
tres relations. Il est facile de fabriquer des contre-exemples de dépendance fonctionnelle 
avec un coefficient de corrélation linéaire nul : ainsi, X et X 2 ou sin X et cos X lorsque la loi 
de X est symétrique. 

3.3.2 Espérance conditionnelle et projection 

Soit Ly le sous-espace de L 2 constitué des variables aléatoires fonctions seulement de X 
du type <p(X) : Ly est convexe et contient la droite des constantes D. 

C’est donc un sous-espace de Hilbert Fermé. 

Alors l’espérance conditionnelle de F sachant X, E(Y/X), s’interprète comme la projection 
orthogonale de F sur L\. 
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Soit en effet l’opérateur qui associe à toute variable aléatoire son espérance conditionnelle 
à X. C’est un opérateur linéaire ; pour montrer que c’est un projecteur orthogonal il suffit de 
vérifier qu'il est idempotent et auto-adjoint : 

- il est idempotent : E(E(Y/X)/X) = E(Y/X ) ; 

- et auto-adjoint : < Z ; E(Y/X) ) = < E(Z/X) ; Y ). 

En effet, les deux membres de cette relation sont égaux à E[E(Z/X)E{Y/X)]. 

Le théorème de l’espérance totale E{Y) = E(E(Y/X)) est alors un cas particulier du 
théorème des trois perpendiculaires, comme l’illustre la figure 3.3. 



Figure 3.3 


E(Y/X) étant une projection orthogonale, ceci montre que le minimum de : 

E[{Y- «p(X))-J 

est atteint pour tp(X) = E(Y/X), résultat qui sera repris lors de l’étude de la régression. On 
peut dire que si E(Y) est la meilleure approximation de Y par une constante, E(Y/X) est la 
meilleure approximation de Y par une fonction de X 

Il est alors immédiat que le « résidu » Y — E(Y/X) est non corrélé avec X par suite de 
l’orthogonalité. 

Le théorème de la variance totale s'interprète comme le théorème de Pythagore appliqué 
au triangle rectangle K, E(Y), E(Y/X) : 

||K-E(y)|P= nn= \\B{YJX) - £()')|p + \\Y-E(Y/X)f 
= V(E(Y/X)) + El (Y - E(Y/X)) 2 ] 

= V(E(Y/X)) + E[E(Y — El t'/A'ir] 

= V(E(Y/X» + E(V(Y/X)) 

3.3.3 Rapport de corrélation de Y en X 

Le coefficient de corrélation linéaire p est une mesure symétrique de dépendance, qui est 
maximale dans le cas de la liaison linéaire. 

Le théorème de la variance totale permet de définir une autre mesure de liaison non 
symétrique cette fois : le rapport de corrélation t) k/y tel que : 
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Ce rapport est le cosinus carré de l’angle formé par Y — E{Y) et l’espace L\. 

On a donc : 0 < T)y 7V < 1 

Propriété 

J SiTik-= \,E(V(Y/X)) = 0. 

On en déduit donc que V(Y/X) = 0 presque sûrement, car c'est une variable positive. Ce qui 
veut dire qu’à X fixé la variance de l'est nulle, donc que Y ne prend qu’une seule valeur. 

rrm = 1 => ^ = <P(X) 


Le rapport de corrélation est maximal si Y est lié fonctionnellement à X. 


Propriété 



Si tiï/a- = 0, V(E(Y/X)) = 0, E(Y/X) est donc presque sûrement une constante. 


On dit que Y est non corrélé avec X, il y a absence de dépendance en moyenne. C’est en 
particulier le cas si X et Y sont indépendantes mais la réciproque est inexacte. On montre en 
fait que l’indépendance entre Y et X est équivalente à l’orthogonalité des espaces L? x et L\ 
engendrés par X et 71e long de la droite des constantes (fig. 3.4) : 



"Hr/.Y = 0 signifie seulement que Y - E(Y) est orthogonal à L\ ; 

t| 2 est une mesure de liaison fonctionnelle alors que p est une mesure de liaison linéaire ; 
T|yyY est toujours supérieur ou égal à p 2 car p 2 est le cosinus carré de l’angle formé par 
Y — E{Y) avec le sous-espace de dimension 2 de L\ engendré par la droite des constan¬ 
tes D et la variable X. 

Le cas ou T|y- AV = p 2 signifie donc que E(Y/X) appartient à ce sous-espace de dimension 2, 
donc que : 

FJY/X) = a + 

c’est celui de la régression linéaire dont l’étude sera effectuée en détail au chapitre 16. 

Si E(Y/X) = a + (3X, on ne peut trouver de transformation de X augmentant p. 
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En effet d’une part qy 7V = sup p 2 (Y ;tp(X)), et d’autre part la linéarité de la régression 

Ç 

implique tij- /x = p 2 (F ; AT). 

Lorsque (Y ; X) est un couple gaussien on a simultanément E(Y/X) = a + pX et E(X/Y) ~ 
-y + B Y 

On en déduit le théorème suivant : 

Théorème 

Si ( Y ; X) est un couple gaussien , on ne peut pas trouver de transformations cp(X ) et vji( Y) 
augmentant en valeur absolue le coefficient de corrélation : 

P 2 (<P(X) ; iKY)) ^ p 2 

Les prévisions optimales (en moyenne quadratique) sont donc linéaires. 





Vecteurs aléatoires, 
formes quadratiques 


Ce chapitre présente les résultats les plus utiles pour f étude des variables à plusieurs 
dimensions. Certaines démonstrations purement techniques seront omises. 

4.1 GÉNÉRALITÉS SUR LES VECTEURS ALÉATOIRES RÉELS 

Un vecteur aléatoire X est une application de (H, c €, P) dans un espace vectoriel réel, en 
général U 1 ' muni de sa tribu borélienne. 

En pratique W est muni de sa base canonique et on identifiera X au p-uple de variables 
aléatoires formé par ses composantes sur cette base X = (X lT X 2 , . . X r ). 

4.1.1 Fonction de répartition et densité 

4.1.1.1 Fonction de répartition 

F est une application de R 7 ’ dans R définie par : 

F(x ,, A- 2 ,- X p ) = P(X { < X |, .. .,X p < A- ; ,) 

dont les propriétés se déduisent aisément de celles vues pour les couples de vecteurs aléatoires. 

4.1.1.2 Densité 

/si elle existe est définie par : 



4.1.1.3 Changement de variables dans une densité 

Effectuons le changement de variables défini par : 

Y, = <Pi(X h X 2 , .... X p ) 

Les fonctions (p, étant telles que le passage de (X,, X 2 , .. ., X p ) à (L,, L,.. . .. Y.,) est biuni- 
voque. Nous désignerons en abrégé par ip la transformation : 

X Y Y = tp(X) 
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La densité du vecteur Y s’obtient alors par la formule : 

, , /[<p“'(y)l 
9(y) = —rrmr 


où det J, appelé jacobien de la transformation, est tel que : 


det J = 


(det J) 1 = 


flv, 


clt, 

rit, 

r))’i 

d V p 

Bx r 

te P 

rit, 

te t 

dv, 

tep 


= det J 1 


La démonstration de cette propriété figure dans tous les ouvrages consacrés à l’intégration 
(changement de variable dans les intégrales multiples). 

Si la transformation cp est linéaire de matrice A constante, Y = AX (A doit être régulière) 
on a det J = j A |. En particulier si A est une transformation orthogonale le jacobien vaut 1. 

4.1 .2 Fonction caractéristique 

Soit a un vecteur non aléatoire de composantes (n h a 2 , ■ . a^). 

Définition 

On appelle fonction caractéristique du vecteur aléatoire X la fonction de /’argument 
■f vectoriel a définie par : 

cp x (a) = £[exp(?a'X)| = £[exp(/(u,X ( + a 2 X 2 + ■ ■ * + a p X.,))] 


Théorème 


Les composantes X h X : ,. . X p de X sont indépendantes si et seulement si la 
fonction caractéristique de X est égale au produit des fonctions caractéristiques 
de ses composantes : 

p 

9 x (a) = Il **«*!> 
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Si les Xj sont indépendantes l’espérance d’un produit de fonctions des X,- est égale au 
produit des espérances donc : 

£[exp(/a'X)] = Etexpf/V^X,)] E[exp(ia 2 X 2 )] ■ . . E[exp(ia r X p )] 

ce qui démontre une partie de la proposition. 

La réciproque plus délicate utilise l’inversion de la fonction caractéristique et est 
omise. 

Le résultat suivant fondamental permet de définir des lois de probabilités à p-dimensions 
à partir des lois unidimensionnelles. 

Théorème de Cramer-Wold 

1 La loi de X est entièrement déterminée par celles de toutes les combinaisons linéaires 
1 de ses composantes. 

i> 

a'X = et cherchons la fonction caractéristique de Y : 

;= 1 

ipc(/) = E[exp(itY)] = £[exp(/7a'X)] 

la loi de Y est connue pour tout a on connaît donc la fonction carac- 
loi de X. 


Posons en effet Y = 


d’où ipy(l) = ip A -(a). Si 
téristique de X donc la 


4.1.3 Espérance et matrice de variance-covariance 

Si |x,- désigne £(X,), on appelle par définition espérance de X = (X,, . . X ; ,) le vecteur 

certain : 


>f 

Pc 


£(X) = pl - 



La matrice de variance-covariance 2 de X est définie par : 


crj cov(X[,X 2 ) 

n 

en 


2 = 


cov(X,, X,,) 


- £[XX'] - |X|JL’ 


c’est une matrice carrée symétrique d’ordre p. 
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Si les variables X, sont réduites, 2 s’identifie avec la matrice de corrélation : 

■ • • P 1/7 


1 Pl2 
1 


1 


1 


4.1.4 Transformations linéaires 

Effectuons un changement de variable linéaire Y = AX où A est une matrice quelconque; 
de constantes (pas nécessairement carrée), alors : 


|A t = A^v 

.2 r = A2 X A'. . .^ 

ce qui se démontre en appliquant les définitions. 

En particulier si A est une matrice uniligne, Y est alors une variable aléatoire unidimension- 

v 

nelle. Si a' désigne cette ligne Y = '^a i X i et = a 2a. On a donc pour tout a, a'2a > 0 

i=i 

car une variance est non négative. On en déduit le résultat suivant : 

Théorème 

L Une condition nécessaire et suffisante pour qu 'une matrice 2 symétrique soit la matrice 
de variance d'un vecteur aléatoire est que 2 soit une matrice positive. 


La réciproque s’établit à partir de la propriété classique suivante des matrices symétriques 
positives : 

Toute matrice symétrique positive 2 peut s’écrire sous la forme 2 = TT' où T est définie 
à une transformation orthogonale près (si T convient, S = TU, où U est orthogonale, convient 
aussi ; une solution particulière est fournie par T — 2 1/2 = PA 1/2 P' où P est la matrice des 
vecteurs propres normés de T et A la matrice diagonale des valeurs propres). Il suffit donc de 
partir d’un vecteur aléatoire X de matrice de variance I, (par exemple un p-uple de variables 
indépendantes centrées-réduites) et de faire la transformation Y = TX pour obtenir un vec¬ 
teur aléatoire de matrice de variance 2. 

Si 2 est régulière, c'est-à-dire si les composantes de X ne sont pas linéairement dépendantes 
on peut trouver une transformation inverse qui « normalise » le vecteur X. 

Théorème 

| Si 2 est régulière il existe une infinité de transformations linéaires A, telles que Y = AX 
I soit un vecteur de matrice de variance I. 


Il suffit de prendre A = T Un choix particulièrement intéressant est celui de 
T = 2 ,/2 . 
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DÉFINITION 

Qn appelle transformation de Mahalanobis la transformation définie par 2~ l/2 . 

y = 2“ 1/2 (X — fx) est alors un vecteur aléatoire centré-réduit à composantes non corrélées. 
On en déduit aisément le résultat suivant : 

Théorème 

| La variable aléatoire (X - |x)'2~ ! (X — j x) = D 2 a pour espérance p. 

i> 

En effet D 2 = ou ' es sont d’espérance nulle et de variance 1. D est appelée 

i=i 

distance de Mahalanobis de X à jx. 


4.2 VECTEURS ALEATOIRES GAUSSIENS : 
LA LOI MULTINORMALE 


4.2.1 Définitions et fonction caractéristique 

DÉFINITION 

L X est un vecteur gaussien à p dimensions si toute combinaison linéaire de ses compo¬ 
santes a'X suit une loi de Laplace-Gauss à une dimension. 

Le théorème de Cramer-Wold permet d’établir que la loi de X est ainsi parfaitement déter¬ 
minée. On remarquera que la normalité de chaque composante ne suffit nullement à définir 
un vecteur gaussien. 

La fonction caractéristique de X s’en déduit aisément (on supposera ici que X est centré 
ce qui ne nuit pas à la généralité). 

Théorème 

1 9x( a ) = expf — - a'Sa'j où 2 est la matrice de variance de X. 


En effet d’après le théorème de Cramer-Wold : 

cp x (a) = ipy(l) où Y = a'X 

La loi de Y est par définition une gaussienne centrée de variance V(Y) — a'2a et la fonc- 

t 2 

tion caractéristique de Y est ip v (r) = exp(— — V(Y)j ce qui établit le résultat. 

On en déduit le résultat fondamental suivant : 

Théorème 

I Les composantes d'un vecteur gaussien X sont indépendantes si et seulement si 2 est 
diagonale , c'est-à-dire si elles sont non corrélées. 
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On a en effet, si 2 est diagonale de termes erp : 

/ J /’ \ !> 

<Px(») = ™p{ ~ 2 a hî ) - Il 


On notera N,,(pi ; 2) la loi normale à p dimensions d’espérance p. et de matrice de 
variance 2. 


4.2.2 Densité de la loi normale à p dimensions 

Celle-ci n’existe que lorsque 2 est régulière. 

Théorème 

Si 2 est régulière X admet pour densité : 


1 


S (x " ■ ■ •’ V = ^(det2)^ exp l-^ (X " (x ~ ^ 


t 


En effet Y = 2 l/2 (X — pi) est alors un vecteur gaussien dont les composantes sont 
centrées-réduites et indépendantes. Y a pour densité : 


p p \ 

9( y) = Il 9(y,) = n 7 ^ exp 

/= I /= I V 477 


.1 , 
9 


1 


yï] = (2^ eXP '~ ^ y ‘ 


1 p 
1 v» A 


Il suffit alors d’appliquer la formule du changement de variable ; le jacobien J vaut ici 
det2 l/2 = (det 2) I/2 ce qui établit le résultat. 

Les surfaces d’isodensité sont donc les ellipsoïdes d’équation (x — (jl)' 2 -, (x — pu) = c. 

4.2.3 Cas particulier de la Soi normale à deux dimensions 

Si l’on introduit p coefficient de corrélation linéaire entre X, et X 2 : 


2 = 


cry po - iO - i 

po* ,0- 2 en 


d’où : 


et : 


det 2 — (ct,ct 2 ) 2 (1 — p 2 ) 


2 “' = 


det 2 


0-2 pt7 I®" 2 

"P 0 ‘[ 0"2 07 


/(* l,X 2 ) 


V 2'na ] CT 2 sj] - p 2 eXp [ 2(1 - p 2 ) 

(a;, - m,)(.v 2 - m 2 ) , (x 2 ~ nu\ 2 
— dp- r 


x , — ni 


cr ! cr 2 


CT-> 
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La figure 4.1 représente quelques surfaces de densité correspondant à cr, 
diverses valeurs de p ainsi que les ellipses d’isodensité dans le plan X], X 2 . 








P = 0.75 


p = 0.75 



Ellipses contenant 50 % et 90 % des observations 


Figure 4.1 (d'après Bhattacharyya et Johnson, 1977). 
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4.2.4 Lois conditionnelles (sans démonstration) 

Partitionnons X en deux sous-vecteurs X, et X 2 à £ et p — k composantes respectivement 
d’espérance iri| et m 2 : 


La matrice de variance-covariance se partitionne en 4 blocs 


2 |] 2 ]2 

X ;2 


Si l’on cherche la loi du vecteur X h conditionnée par X 2 on a les résultats suivants 

Théorème 

1 La loi de X,/X 2 est une loi multinomiale à p dimensions : 

I - d’espérance : £[X ( /X 2 ] = 111 !+ S 12 2i 2 l (X 2 — m 2 ) ; 

s - de matrice variance-covariance : 2 n/2 = 2 M - 2| 2 2 22 S 2 |. 


On constate donc que la régression de X, en X 2 est linéaire. 

Les termes de 2 ( w2 s’appellent les covariances partielles cov (i,j j 2), desquelles on déduit 
les corrélations partielles : 

cov(i, j 12) 


Les variances conditionnelles ne dépendent pas des valeurs prises par X 2 : il y a 
« homoscédasticité ». 


4.2.5 Théorème central-limite multidimensionnel 

De même que pour des lois à une dimension on peut établir le résultat suivant : 

Soit X h X 2 ,..., X„ une suite de vecteurs aléatoires indépendants de même loi, d’espérance 
jjl et de matrice de variance 2 alors : 

Théorème 
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4.3 FORMES QUADRATIQUES DÉFINIES 

SUR UN VECTEUR GAUSSIEN ET LOIS DÉRIVÉES 


4.3.1 Lois du x 2 (khi-deux) 


DÉFINITION 

1 U], U 2 , ■ • -■> U p étant p variables LG(0 ; 1) indépendantes , on appelle loi du khi-deux à 

I p degrés de libené (xj t ) la loi de la variable ^ U 2 . 


C’est donc la loi de la somme des carrés des composantes d’un vecteur gaussien centré et 
de matrice de variance I. 

On en déduit immédiatement que la somme de deux variables x 2 indépendantes 
'àpetq degrés de liberté est encore une variable x 2 , à p + cj degrés de liberté. 

La loi du x 2 se déduit de la loi 7 par une simple transformation. 

Prenons en effet un x 2 , c’est-à-dire le carré d'une variable de Gauss. D’après un résultat 
établi au chapitre 2, la densité de T = U 2 est : 

s(0= i r,,2exp (4) 


Puisque Vît = F 



U 2 

on en déduit que — 


7 i / 2 . On a donc la propriété suivante : 


Propriété 


Si X est une variable y r , 2X est un xl r 


On en déduit donc par transformation les propriétés de la loi du x 2 : 


EixD = P V(XJ,) = 2 p 


Densité : £(x 2 ) 




( x 2 )r /2 -> (fi g . 4 . 2 ). 


A. Fonction caractéristique 

Elle se déduit de celle de la loi 7 : 


<Pxï(') 


1 

(1-2 uy n - 
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B. Approximation du \ 2 par la loi normale 

Lorsque/? > 30 on peut admettre que — ^2p — 1 est distribué comme une LG(0 ; 1), ?| 
soit : || 


ou (mieux) que : 


, (u + 'fïi^ny- 

V “-,- 


(approximation de Fisher) f 



soit : 


X/" 


V 




(approximation de Wilson-Hilferty) 


Cette dernière approximation, très précise, est correcte même pour des valeurs faibles 
de p. On trouvera en annexe des formules exactes permettant de calculer la fonction de 
répartition du x 2 - 

La table A1.6 donne les fractiles de la loi de y 2 jusqu’à 100 degrés de liberté. On peut 
donc en déduire ceux de la loi y r pour des valeurs de r allant de 1/2 à 50 par demi-entier. 

4.3.2 Formes quadratiques 

Sous certaines conditions, des formes quadratiques définies sur des vecteurs gaussiens 
suivent des lois du x 2 - Ces résultats sont fondamentaux en statistique dans les problèmes de 
décomposition de variance. 
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Théorème 



Si X suit une loi normale à p dimensions d'espérance pu et de matrice de variance 
2 régulière alors : 

D 2 = (X — ja)' X~'(X - |a) suit une loi du xj> 


p 

Il suffît de se souvenir que D 2 = X Yf °ù É sont des LG(0 ; 1) indépendantes. 

i=i 


Considérons maintenant Y vecteur gaussien centré-réduit à composantes indépendantes et 

p p 

cherchons la loi d ? une forme quadratique générale Q — Y'AY = X X^^r 

1 j- ) 

Nous allons établir la forme de la fonction caractéristique de Q ce qui permettra après de 
déduire dans quels cas Q suit une loi du x 2 - 


Théorème 

L 


■PflW = [detd - 2,-lA)]- 1 '- 


mt Démonstration 

tp e (0 = £[exp(/?£)] = £[exp(/7Y'AY)] 

Écrivons A = P'AP où P est la matrice orthogonale des vecteurs propres et A la matrice 
diagonale des valeurs propres de A : 

Y'AY = j^XjZf en posant Z = PY 

j=i 

P étant orthogonale Z est encore un vecteur gaussien centré-réduit à composantes 
indépendantes. 

Donc : <Pq(0 = E exp( it X A } zj ) = 

\ i— I /J j= I 

P 

or Zj est unxî d’où : cp 0 (f) = Q(1 — 2 i\jt)~ v2 

j=i 

or si \j est valeur propre de A, 1 — 2 i\jt est valeur propre de I — 2/7A, donc : 

fld ~ 2/X/) = det (I - lit A) « 

y=i 

On peut également donner la démonstration suivante plus directe mais utilisant des 
gaussiennes complexes. 
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« Démonstration 


£[exp(//Y'AY)j - J exp(ity'AY)g(y) dy = j exp(/7y'Ay) exp|^--y'yj dy 


= J e X p(~y'(I-2;,A)y)dy 


Or si l’on considère une loi gaussienne de matrice de variance 2 = (I - 2/7A) 1 on 
sait que : 


J s ,ë^^ exp C/ 2 '' T* ’ 1 

d’où : E[txp(itQ)] = (det2) ,/2 = [det(I - 2;7A)]~ I/2 m 

On peut donc établir la propriété suivante : 

Théorème 

| O — Y'AY suit une loi du \ 2 si seulement si A est un projecteur orthogonal, 
7 c'est-à-dire si A 2 = A. Le rang de A est alors le degré de liberté du \ 2 - 


En effet si A 2 = A kj = 0 ou 1 et cp^(/) est la fonction caractéristique d’un x 2 - La réci¬ 
proque est alors immédiate, 

Considérons maintenant deux formes quadratiques Q, et Q 2 de matrice A, et A 2 définies 
sur Y. 


Théorème de Craig 

I Qj & Q: sont indépendantes si et seulement si A, A 2 = 0. 


m Démonstration 

<Pq,qP\, h) = £[exp07,0, + /7 2 £> 2 )] = [det(I - 21/jAj - 2/7 2 A 2 )] _1/2 

Comparons cette expression au produit des deux fonctions caractéristiques de Q { 
et 0 2 . 

9 c >,(/i)9o ; (C) = fdet(I - 2/7,A[)det(I - 2 ï7 2 A 2 )]“ ,/2 

= [det(I — 2z7,A| — 2/7 2 A 2 — 4r,/ 2 A jA 2 )]” i/2 

on aura <PQ { (J\)<PoXh) = i h) VUh S1 et seulement si A t A 2 — 0 ce qui établit le 

théorème. m 

Nous pouvons enfin énoncer le résultat le plus important concernant les formes quadra¬ 
tiques qui généralise la propriété d’additivité du x~ • 
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Y'Y = |)Yf 

1=1 


Ce théorème n’est que la version probabiliste d'un théorème classique d’algèbre linéaire 
que voici. 

Soit k matrices symétriques A], A 2 ,. .A* d’ordre p telles que ^A^ = I ;) . 

.;= i 

Alors les trois conditions suivantes sont équivalentes : 

- 2 ran 2 A ; = P ; 

i 

- A? = A V/ ; 

- A,Ay = 0 pour i =r= j. 

La démonstration, sans difficulté, est laissée au soin du lecteur. Géométriquement ce théo¬ 
rème est une extension du théorème de Pythagore et de sa réciproque à la décomposition 
d’un vecteur et donc de son carré de norme, sur des sous-espaces deux à deux orthogonaux. 
L’orthogonalité est ici synonyme d’indépendance pour des vecteurs gaussiens. 

4.3.3 Loi du F de Fisher-Snedecor 


Théorème de Cochran 

k 

Soient Q h Q 2 , • • Qt k formes quadratiques sur Y telles que 2 Qj ~ 

j= 1 

c’est-à-dire réalisant une décomposition du carré de nonne de Y. 

Alors les trois conditions suivantes sont équivalentes : 

- 2 ran s ( Qj ) = P : 

j = 1 ^ 

- chaque Qj est une variable de : 

- les Qj sont indépendantes. 


Cette loi, liée au rapport de deux formes quadratiques indépendantes joue un grand rôle 
en statistique (loi du rapport des variances de deux échantillons indépendants par exemple). 

X et Y étant des variables suivant indépendamment des lois xl et xjv on définit : 


F(n ; p) 


X/n 

Wp 


La densité de F s’obtient aisément par transformation de celle d’une bétail car A/2 et K/2 
suivent des lois y„ /2 et y ; , /2 : 


9(.f) 


n/2 


f 


n n 


1 l 


B r;- 1 +-/ 


(n-rp)/2 


E{F) = 


- ? 


et 


V(F) 


n + p 


n (p - 2 ) 2 (p - 4) 
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Cette loi est tabulée en annexe ce qui permet d’obtenir les distributions des lois bêta I et 
bêta II ; on a en effet les relations suivantes : 


pY 

- si Y suit une loi bêta II(/z, p). alors — est un F(2n, 

n 

P * 

- si X suit une loi bêta l(;z, p ). alors-est un 

n 1 — X 


2 p) ; 

F(2n, 2 p). 


43.4 Loi de Student 

Soit une variable aléatoire U suivant une LG(0, 1 ) et X une variable aléatoire suivant indé¬ 
pendamment de U une loi xü- On définit alors la variable de Student T„ à n degrés de liberté 
comme étant : 


On a : 



E(Tj = 0 si n > 1 
n 


V(T„) 


si n > 2 


n - 2 
ji 3 = 0 si n > 3 
3/z 2 


= 


O» - 2)(;i - 4) 
6 


7 2 = 3 + 


n — 4 


si n > 4 

Si 72 > 4 


Pour 72 = 1 la loi de Student est la loi de Cauchy, loi du quotient de deux variables aléa¬ 
toires de Laplace-Gauss indépendantes, dont la densité est : 


M = 


1 

tt(] + / 2 ) 


Cette loi ne possède aucun moment fini. De manière générale la densité de T„ est : 


fit) 



L 



(«+1 )/2 


si n —5" ûc, T„ LG(0 ; 1), ainsi que l’expression des moments le laissait supposer. 
On a la relation suivante entre les variables de Student et de Fisher-Snedecor : 


(T,,) 2 = F( 1 ; 72) 
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La figure 4.3 donne les densités de T n pour diverses valeurs du degré de liberté : 

n - 1, 2, 5, 10, 50. 



-5 -4 -3 -2 -1 0 1 2 3 4 5 

Figure 4.3 Densité de probabilité de la variable de Student 


On remarquera le comportement particulier de la loi de Cauchy T x . qui a des queues de 
distribution très importantes : 

P(|T,| > 2) = 0.29 

4.4 LA LOI MULTINOMIALE, 

INTRODUCTION AU TEST DU X 2 

Comme son nom l’indique cette loi généralise la loi binomiale. 

4.4.1 Le schéma de Purne à k catégories 

Considérons une partition de Q en k événements de probabilité p x , p 2 , .. (fig. 4.4). 



n 

Figure 4.4 
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On répète alors indépendamment n fois l’expérience aléatoire et on compte les nombres ■ 
de réalisations respectives des .4, : N u AA, ■ ■ N k - I 

Le vecteur aléatoii'e (discret) (A',, AA. N k ) suit alors par définition une loi multinomiale 

d’effectif n et de paramètres p u p z , . .p k . 

Ce schéma se produit en particulier dans des problèmes de sondages : une population est 
partagée en k catégories et on tire avec remise n individus ; on compte ensuite les effectifs 1 
de cet échantillon appartenant aux diverses catégories. 

On l’observe également lors du dénombrement des réalisations d’une variable aléatoire X : 

L’ensemble des valeurs de X est partagé en k classes de probabilités p t et on compte 
sur un ensemble de n individus les nombres d’individus appartenant à chacune de 
ces classes (fig. 4.5) : (c’est la démarche utilisée pour construire un histogramme, voir 
chapitre 5). 



Par construction, les composantes N u AA,. .., N k du vecteur multinomial sont linéairement 

k in¬ 

dépendantes : 2 A/, = n et on a bien sûr ]£/?,- = 1. 

;= i i= i 

Chaque composante N, suit une loi binomiale 35(n ; p : ) donc E(Nj) = np, et 

Vm = np,V-Pi). 

La loi conditionnelle de N, sachant Nj = Jij est également une loi binomiale : 



11 suffit de remarquer que tout se passe comme si il restait à tirer n — ly individus dans 
une population à k — 1 catégories : la catégorie Aj étant éliminée la probabilité condition¬ 


nelle d’observer A-JAj vaut 


Pi 

1 “ Pj 
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La loi du fc-uple est alors donnée par : 


P(/V, = n | ; N 2 = n 2 ; N k = n k ) = 


n ”I rt'- 

Pl Pl ■ • • Pk 


4.4.2 Espérance et matrice de variance 

Comme chaque N- t suit une loi 9i{n ; p t ) on a : 


np i 
np 2 


M- = 


n Pk, 


Pour établir la covariance entre A J i et Nj il suffit de remarquer que le vecteur multinomial 
est une somme de n vecteurs indépendants de même loi que le vecteur X = (X h X 2 , . . X k ) 
tel que X, = 0 ou 1 avec les probabilités 1 — p ,&t p, ; un seul des X-, étant nul. Les X, sont les 
indicatrices des catégories A u A 2 ,.... A k pour un des n tirages. 

On a alors E(X,X } ) = 0 si i rj d’où cov(X,-, XJ) = — £(X,)E(X,-) = ~PiP r 

La covariance d’une somme étant la somme des covariances on en déduit : 

cov (A^-, Nj) = —npiPj si / ~ j 

La matrice de variance-covariance de la loi multinomiale est donc : 


p,(l-p,) —Pi Pi ... ~PiP k 

-PiPi Pi(l ~ Pi) ■■■ "PiPk 


\_~PiPk ~PiPk ■■■ Pk(l ~ Pk) J 


k 

Cette matrice n’est pas régulière car = n (on remarque que les sommes en lignes et en 
colonnes sont nulles). ' =l 


4.4.3 Lois limites lorsque n 00 

D’après le théorème central limite multidimensionnel, comme (iV h N 2 ,. . ., N k ) est une 
somme de n vecteurs aléatoires indépendants et de même loi, on a : 


-p (/V[ " npi ; N-, - np-> ;. 
Vu 


~ np k ) ^ N k (0 ; 2) 
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k 

La loi limite est dégénérée (elle n’admet pas de densité) car — np t ) = 0. 

i=i 

Cependant si l’on supprime par exemple la dernière composante on a alors un vecteur 
limite gaussien non dégénéré et : 

X = -J- (Ni - /j/?! ; N 2 - np 2 ;... ; N k . l - iip k -\) 0 : S*) 

vu 

où S :|s s’obtient en supprimant la dernière ligne et la dernière colonne de 2. 

Par une simple vérification on trouve : 



Appliquons alors le premier théorème sur les formes quadratiques : 

D 2 = X'(2*r'X-xi-, 

En développant on a : 

nPi)(Nj - np Q ) 
"Pk 

k -I k -1 

car J Nj = n - N k et 2 np ,■ = n - np k . 


d- = 2 ——— + 2——— + 22^— 

/= I "Pi i— 1 "Pk iïj 


= ^K^El + ±^ (Ni _ npi) 
/= 1 "Pi "Pk\'=l 

t>'(A/,- ~ np,) 2 1 , 

= 2 Lj -— + — (W, - np,) 2 

i= I "Pi "Pk 
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Il vient donc : 


y M ~ nPiŸ 
l=i nPî 



XI -1 


Ce résultat capital est à la base du test du khi-deux permettant de comparer une distribu¬ 
tion d’observations N { , N 2 , ■ . N k . à une distribution théorique de probabilités p h p 2 , ..fh 
(voir chapitre 14, paragraphe 14.6.2.1). 


4.5 LOIS DE WISHART, DE HOTELLSNG, DE WILKS 

Ces lois jouent un rôle essentiel en statistique mathématique multidimensionnelle. 

4.5.1 Loi de Wishart 

Définition 

| Une motrice M ( p, p) a une distribution de Wishart W f ,(n ; S) si M peut s'écrire M = X'X 
I où X est une matrice (n, p) aléatoire définie de la façon suivante : les n lignes de X sont 
| des vecteurs aléatoires gaussiens de même loi N p {0 ; 2) indépendants. 

X représente donc un échantillon de n observations indépendantes d’une loi normale 
multidimensionnelle. 

Nous allons voir que cette loi généralise d’une certaine façon la loi du y 2 . Si p — 1 on a 
en effet : 


Wfn ; ct 2 ) = - %xf 


On montre que la densité de la loi de Wishart est : 

M l^ 11 eX pf — - r 

/(M) =-7“ 

/.(/’-') /4 | 2 | ,,/2 n r 

i=i 

avec M > 0 pour la mesure de Lebesgue dans ^ (en effet M doit être symétrique et 

semi définie positive). 

On rapprochera cette formule de celle de la densité d’un yf. 
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On note également que la fonction caractéristique de la loi de Wishart W p (n ; 2) est ; 
£[exp (/TM)] = |I - /T2|~" /2 

où T est une matrice ( p , p). 

Rappelons que la fonction caractéristique d’un xl est cp,4/) = (1 — HtY n!1 . 


On a: E(M) = «2 et £(M“') 


n — p — 1 


si n — p — 1 >0 


Pour tout vecteur constant a : 


a'Ma 

a'2a 


suit une loi xl 


En effet on vérifie sans peine que a'Ma est une matrice de Wishart W)(u ; a'2a) car 
a'Ma = a'X'Xa où Xa suit /V,(0 ; a'2a). 

a'2 -I a 

On peut montrer également, mais la démonstration est délicate, que ———— suit une 
, . i c a M~'a 

loi Xn -,,+ !■ 

Ces deux propriétés se généralisent avec des vecteurs aléatoires. 


Propriété 

Soit x un vecteur aléatoire (de loi quelconque) indépendant de M alors : 


x'Mx 

x'2x 


et 


x'2~‘x 

x'M”'x 


suivent les lois xl et xl~p +1 respectivement et sont des variables indépendantes de x. 
a'Ma et b'Mb sont indépendantes si a'2b = 0. 


4.5.2 La loi du T 2 de Hotelling 


Cette distribution généralise celle de Student (ou plutôt son carré). C’est celle d’une varia¬ 
ble unidimensionnelle. 


Définition 


Soit x un vecteur aléatoire normal N p (0 ; I) et M une matrice de Wishart W p {n ; I), 
indépendante de x ; alors la quantité ;ix'M _I x suit par définition une loi du T 2 de 
Hotelling de paramètres p et n. 


Par abus de notation, on posera ; T 2 (n) = /zx'M 'x 
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Propriété 


Si x suit une loi N p ( p. ; S) et M une loi de Wishart indépendante de x W (n ; 2) alors 
n(x - (x - |ul) suit une loi T~(n). 

La démonstration évidente utilise la transformation de Mahalanobis y = 2~ l/2 (x — jx) 
et le fait que 2~ !/2 M2~ l/2 est une W p (n ; I /; ). 

/zx'M _l x suit ce qu’on appelle une loi de Hotelling décentrée T~{ru X 2 ) où \ 2 = jx'2|x 
est le paramètre de décentrement. 


La loi du T 2 de Hotelling s’identifie à celle de Fisher-Snedecor selon la formule : 


Tl{n) = 


np 


n — p + 1 


F(p \ n — p + 1) 


En effet, on peut écrire avec x N p (0 ; I) : 


T 


//x'M 'x 


X X 


X X 


XX 


ou 


x'MT'x 


est un xït-i> + \ indépendant de x donc de x'x qui est un y 2 d’où : 


T fin) 



~X.it —/> +1 


On voit que pour p — \,T , 2 (;z) = F{\ ; n)c’est-à-dire le carré de la variable de Student 
à n degrés de liberté. 


Notons que : 


E{T.;{n)) = 


np 


n p 1 


4.5.3 La Soi du lambda (À) de Willcs 


Cette loi joue un grand rôle en analyse de variance multidimensionnelle où elle généralise 
celle de Fisher-Snedecor : elle concerne les rapports de variance généralisée qui sont des 
déterminants de matrices de Wishart. A est une variable unidimensionnelle. 


Définition 


Soit A ei B deux matrices de Wishart W p (m ; 2) et W p {n ; 2) indépendantes où m s p, 
alors Je quotient : 


I Al . 1 

| A + B | |A-'B + I| 


= A 


a une distribution de Wilks de paramètres p , m et n , A(p, m. n) (cette distribution ne 
dépend pas de 2). 


A et B étant des matrices positives A est une variable comprise entre 0 et 1. 
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Remarquons que A s’exprime en fonction des valeurs propres 0, de A 'B : 

a = no + 0,-r 1 


1=1 


A (p, ni, n) et A (n, m + n — p, p) ont la même distribution. 

On peut se ramener à la loi de Fisher-Snedecor dans quatre cas simples : 

1 - A(p, m, 1 ) p 

-- — F(p ; ni — p + 1 ) 

m — p + 1 


A (p, m , 1) 

1 — A(l, m, n) 
A(l, m, /;) 

1 - VA (p, m, 2) 


= — Fiji ; ni) 
m 


- /A/ -n ~ -7T F(1 -P '' 2 ( ,n ~ p + 

VA (p, m, 2) m ~ p + 1 

1 - VA(2, m, 7) n 

~ = —~r F(2n ; 2 (ni - 1)) 

VA(2, nu r) ni - 1 

Si ni est grand on peut utiliser l’approximation de Bartlett : 


m ~ ~(p ~ n + 1) 


In A (p, m, n) - x« ; 



RTIE 


que exploratoire 




Description 
unidimensionnelle 
de données 
numériques 


La plupart du temps les données se présentent sous la forme suivante : on a relevé sur n 
unités appelées « individus » p variables numériques. Lorsque n et p sont grands on cherche à 
synthétiser cette masse d’informations sous une forme exploitable et compréhensible. Une 

.première étape consiste à décrire séparément les résultats obtenus pour chaque variable : c’est 

la description unidimensionnelle, phase indispensable, mais insuffisante (voir chapitre suivant), 
dans toute étude statistique. 

On considérera donc ici qu’on ne s’intéresse qu’à une variable X, appelée encore 
caractère, dont on possède n valeurs .v 2 , . . x„. 

La synthèse de ces données se fait sous forme de tableaux, de graphiques et de résu¬ 
més numériques . C’est ce que l’on appelle couramment la « statistique descriptive » dout 
l’usage a été considérablement facilité par l’informatique. 


5.1 TABLEAUX STATISTIQUES 

Leur présentation diffère légèrement selon la nature des variables. 

5.1. S Variables discrètes ou qualitatives 

Pour chaque valeur ou modalité a, de la variable on note n, le nombre d’occurrences 
(ou effectif) de .v,- dans l’échantillon,Su, = u,et/ la fréquence correspondante/ = n-Jn (on 
utilise en fait le plus souvent le pourcentage 100/.). 

Le tableau statistique se présente en général sous la forme : 


», 


fi 


m Exemple I : Le recensement général de la population française en 1999 donne la répar¬ 
tition des 23 810 161 ménages, selon la variable X nombre de personnes du ménage. 

Rappelons qu’un ménage est composé de toutes les personnes habitant normalement dans 
un logement, quels que soient leurs liens de parenté. Les ménages sont donc ici les individus 
ou unités statistiques. 




110 


5ra Description unidimensionnelle de données numériques 


Tableau 5.1 


Nombre de personnes 

Pourcentage 

1 

31.0 

2 

31.1 

3 

r ,6.2 

4 

13.8 

5 

5.5 

6 et plus 

2.4 


5.1.2 Variables continues ou assimilées 

On regroupe les valeurs en k classes d’extrémités e 0 , e u . :c k et l’on note pour chaque 

i 

classe |e,_,, é> f ] l’effectif n, et la fréquence f ainsi que les fréquences cumulées F, = ^ fi, 
ou proportion des individus pour lesquels X < e r 1 

Le tableau statistique se présente en général comme suit : 







>h 

f 







Par convention, la borne supérieure d’une classe est toujours exclue de cette classe. 

^9 Exemple 2 : Le magazine Capital a donné pour 100 villes françaises les valeurs du taux 
de la taxe d’habitation. 

Tableau 5.2 


Ville 

Taux taxe 
d’habitation 

Zone 

Géographique 

Ville 

Taux taxe 
d’habitation 

Zone 

Géographique 

Aix-en-Provence 

18.94 

Sud-Est 

Auberviiliers 

12.45 

Ile-de-France 

Ajaccio 

22.06 

Sud-Esi 

Aulnuy-sous-Bois 

15.59 

Ile-de-France 

Amiens 

17.97 

Nord 

Avignon 

22.41 

Sud-Est 

Angers 

18.86 

Ouest 

Beauvais 

15.37 

Nord 

Annecy 

14.97 

Sud-Est 

Belfort 

16.20 

Est 

Antibes 

14.30 

Sud-Est 

Besançon 

20.20 

Est 

Antony 

11.07 

Ile-de-France 

Béziers 

22.14 

Sud-Ouest 

Argenteuil 

16.90 

Ile-de-France 

Blois 

17.07 

Centre 

Arles 

24.49 

Sud-Est 

Bordeaux 

22.11 

Sud-Ouest 

Asnières-stir-Seine 

10.13 

Ile-de-France 

Boulogne-Billancourt 

9.46 

Ile-de-France 
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Ville 

Taux taxe 
d'habitation 

Zone 

Géographique 

Ville 

Taux taxe 
d'habitation 

Zone 

Géographique 

Bourges 

15.77 

Centre 

Maisons-Alfort 

10.30 

Ile-de-France 

Brest 

25.99 

Ouest 

Marseille 

21.93 

Sud-Est 

Brive-la-Gaillarde 

15.82 

Centre 

Mérignac 

19.39 

Sud-Ouest 



Ouest 

Metz 

16.62 

Est 



Nord 

Montauban 

12.72 

Sud-Ouest 

Cannes 

19.72 


Montpellier 

21.40 

Sud-Ouest 

Chalon-sur-Saône 

17.30 


Montreuil 

13.67 

Ile-de-France 

Chambéry 

18.71 


Mulhouse 

16.65 

Est 

Champigny/Marne 

15.09 

Ile-de-France 

Nancy 

18.21 

Est 

Charleville-Mézières 

17.30 

Est 

Nanterre 

6.13 

Ile-de-France 

Châteauroux 

17.37 

Centre 

Nantes 

21.13 

Ouest 

Cholet 

14.00 

Ouest 

Neuilly-sur-Seine 

3.68 

Ile-de-France 

Clermont-Ferrand 

15.85 

Centre 

Nice 

19.75 

Sud-Est 

Colmar 

16.31 

Est 

Nimes 

30.23 

Sud-Ouest 

Colombes 

14.16 

Ile-de-France 

Niort 

19.19 

Centre 

Courbevoie 

4.86 

Ile-de-France 

Noisy-le-Grand 

16.91 

Ile-de-France 

Créteil 

17.58 

Ile-de-France 

Orléans 

20.05 

Centre 

Dijon 

18.75 

Centre 

Paris 

9.15 

Ile-de-France 

Drancy 

10.42 

Ile-de-France 

Pau 

21.31 

Sud-Ouest 

Dunkerque 

28.69 

Nord 

Perpignan 

15.87 

Sud-Ouest 

Evreux 

21.27 

-- 

Ouest 

Pessac 

20.71 

Sud-Ouest 

Fomenay-sous-Bois 

12.10 

Ile-de-France 

Poitiers 

21.55 

Centre 

Grenoble 

19.43 

Sud-Est 

Quimper 

16.67 

Ouest 

Ivry-sur-Seine 

9.16 

Ile-de-France 

Reims 

14.98 

Est 

La Rochelle 

18.75 

Centre 

Rennes 

21.75 

Ouest 

La Seyne-sur-Mer 

25.98 

Sud-Est 

Roubaix 

27.97 

Nord 

Lava! 

19.48 

Ouest 

Rouen 

20.97 

Ouest 

Le Havre 

17.67 

Ouest 

Rueil-Malmaison 

14.93 

Ile-de-France 


17.54 

Ouest 

Saint-Denis 

9.17 

Ile-de-France 


36.17 

Nord 

Saint-Etienne 

19.90 

Sud-Est 


17.24 

Centre 

St-Maur-des-Fossés 

10.82 

Ile-de-France 




Saint-Nazaire 

16.36 

Ouest 

Lyon 



Saint-Quentin 

20.46 
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Ville 

Taux taxe 
d’hubîtadon 

Zone 

Géographique 

Ville 

_, 

Taux taxe 
d’habitation 

Zone 

Géographique 

Sarcelles 

19.32 

Ile-de-France 

Troyes 

1S.11 

Est ~~ 

Sartrouville 

12.38 

Ile-de-France 

Valence 

16.25 

Sud-Est 

Strasbourg 

22.04 

Est 

Venissieux 

18.70 

Sud-Est 

Toulon 

19.37 

Sud-Est 

Versailles 

8.95 

Ile-de-France 

Toulouse 

19.23 

Sud-Ouest 

Villeneuve-d’Asq 

29.96 

Nord 

Tourcoing 

33.61 

Nord 

. 

Villeurbanne 

19.85 

Sud-Est 

Tours 

20.79 

Centre 

Vitry-sur-Seine 

11.50 

Ile-de-France 


On en déduit pour la variable taux de taxe d'habitation, le tableau suivant obtenu après mise 
en classes d’amplitudes égales à 5, qui permet déjà de mieux comprendre le phénomène : on 
voit clairement une concentration des valeurs (84 %) dans l’intervalle (10 ; 25]. 


Tableau 5.3 


Classe 

Limite 

infér. 

Limite 
supér. 

Point 

central 

Effectif 

Fréquence 

Effectif 

cumulé 

Fréquence 

cumulée 

x 

0.0 

5.0 

2.5 

2 

0.0200 

2 

0.0200 

2 

5.0 

10.0 

7.5 

6 

0.0600 

8 

0.0800 

3 

10.0 

15.0 

12.5 

17 

0.1700 

25 

0.2500 

4 

15.0 

20.0 

17.5 

47 

0.4700 

72 

0.7200 

5 

20.0 

25.0 

22.5 

20 

0.2000 

92 

0.9200 

6 

25.0 

30.0 

27.5 

5 

0.0500 

97 

0.9700 

7 

30.0 

35.0 

32.5 

2 

0.0200 

99 

0.9900 

8 

35.0 

40.0 

37.5 

1 

0.0100 

100 

1.0000 


Dans d’autres cas, on peut recourir à des classes d’amplitudes inégales. 


5.2 REPRÉSENTATIONS GRAPHIQUES 
5.2. S Barres et camemberts 

Pour des variables qualitatives à modalités non ordonnées, il existe une grande variété de 
diagrammes. Les plus répandus sont : 

- les diagrammes en barres (verticales ou horizontales) : les barres sont de longueurs 
proportionnelles aux fréquences des catégories, leur épaisseur est sans importance. 

- Les camemberts (en anglais pie-chart ) : chaque catégorie est représentée par une 
portion de superficie proportionnelle à sa fréquence. 
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Camembert pour Zone Géographique 



H Centre 

□ Est 

tH Ile-de-France 
S Nord 

□ Ouest 
ES Sud-Est 

g Sud-Ouest 


Figure 5.1 


Diagramme en bâtons pour Zone Géographique 


Centre 

Est 

Ile-de-France 

Nord 

Ouest 

Sud-Est 

Sud-Ouest 



0 5 10 15 20 25 30 


Pourcentages 


Figure 5.2 


Pour des variables numériques discrètes, on utilisera de préférence un diagramme en 
barres verticales comme celui-ci : 


Nombre de personnes par ménage 



Figure 5.3 
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5.2.2 Histogrammes 


Analogues à la courbe de densilé d’une variable aléatoire, un histogramme est un graphique 
à barres verticales accolées, obtenu après découpage en classes des observations d’une varia- 1 
ble continue. La surface de chaque barre, encore appelée tuyau d’orgue, doit être proportion- i 
nelle à la fréquence de la classe. Pour des classes d'égale amplitude, la hauteur de chaque barre 
est proportionnelle à la fréquence. 

Voici quelques histogrammes de la distribution des taux de taxe d’habitation : tous ont 
pour propriété que la surface sous l’histogramme vaut 1. 



Taux de taxe d'habitation 





Figure 5.3 bis 


On constate qu’un trop grand nombre de classes « brouille » l’information. 

La détermination du nombre de classes d’un histogramme est délicate et on ne dispose pas 
de règles absolues. Un trop faible nombre de classes fait perdre de l’information et aboutit à 
gommer les différences pouvant exister entre des groupes de l’ensemble étudié. En revanche 
un trop grand nombre de classes aboutit à des graphiques incohérents : certaines classes 
deviennent vides ou presque, car n est fini. 

On peut d’ailleurs critiquer le fait de représenter par une fonction en escalier la distribution 
d’une variable continue : l’histogramme est une approximation assez pauvre d’une fonction de 
densité et il serait plus logique de chercher une fonction plus régulière. 

La théorie de l’estimation de densité permet de proposer des solutions à ce problème (voir 
chapitre 13, paragraphe 13.9.3). 

Une estimation de densité calculée pour 100 abscisses par la méthode du noyau (ici un 
noyau cosinus avec une largeur de fenêtre égale à 60 % de l’étendue) fournit une information 
plus claire, et la forme de la courbe suggère une distribution gaussienne. 
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Taux de taxe d'habitation 

Figure 5.4 


— Mieux qu'un histogramme, une courbe de densité estimée permet des détecter des modes 
multiples, correspondant à des mélanges de distribution (données provenant de plusieurs 
populations différentes). 

5.2.3 Boîte à moustaches ou box-pSot 

Ce diagramme, introduit par J.W. Tukey, est une représentation synthétique extrêmement 
efficace des principales caractéristiques d’une variable numérique. Il en existe plusieurs 
variantes, mais celle décrite ci-dessous est la plus complète. 

La boîte correspond à la partie centrale de la distribution : la moitié des valeurs comprises 
entre le premier et le troisième quartile Q, et Qj (voir plus loin). Les moustaches s’étendent de 
part et d’autre de la boîte jusqu’aux valeurs suivantes : à gauche jusqu’à Q| — 1.5(Q 3 — Q|) 
si il existe des valeurs encore plus petites, sinon jusqu’à la valeur minimale ; à droite jusqu’ à 
Q) + l.5(Q 3 — Q t ) si il existe des valeurs au-delà, sinon jusqu’à la valeur maximale. Les 
valeurs au-delà des moustaches repérées par des :!: sont des valeurs hors norme éventuellement 
suspectes ou aberrantes mais pas nécessairement. 

Ainsi le diagramme en boîte à moustaches montre clairement l’existence de points 
atypiques pour le taux de taxe d’habitation, ici 3 valeurs très basses, et 4 valeurs très élevées. 
Il devient alors intéressant d’identifier les individus correspondants. 


Boîte à moustaches 



Figure 5.5 
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I 

Un autre grand intérêt de ces diagrammes est de pouvoir faire facilement des comparai¬ 
sons entre sous-groupes de données : il est plus simple de comparer des diagrammes en boîte 
que des histogrammes. La figure suivante permet de comparer les distributions du taux de M 
taxe d'habitation selon la région : 



Figure 5.6 


5.2.4 Courbe de concentration 

Applée également courbe de Lorenz, elle est utilisée principalement en statistique 
économique pour étudier les inégalités de répartition d’une grandeur positive cumulable 
(revenu, chiffre d’affaire, . . .) (fig. 5.7). 



™ Exemple : Soit une distribution de revenus X et soit M la masse totale des revenus. A 
chaque valeur du revenu X, on associe un point de coordonnées F{x) en abscisse : proportion 
des individus gagnant moins de .v et G(.v) en ordonnée où G(.v) représente la proportion de 
M correspondante, c’est-à-dire le rapport : 

Masse des revenus < .v 


Masse totale 
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Cette courbe est toujours en dessous de la première bissectrice car F(x) > G(x) pour une 
distribution non dégénérée : il suffit de remarquer que les individus qui gagnent moins de .y, 
qui sont donc en proportion F(. y), ne peuvent gagner globalement autant que les 100F(x) % 
suivants. œs 

La médiale M est la valeur de la variable qui partage en deux la masse totale de la varia¬ 
ble. On a donc : 

Médiale > Médiane 


5.2.4.i Propriétés mathématiques 

Supposons connue la distribution théorique de X de densité /(.y). L’abscisse d’un point de 
la courbe est : 


F(.x) 


Ij 


AO & 


L’ordonnée correspondante est : 


I> )d ' L 

q e(x) r 


tf(t) d t 


i 


tm dt 


Si X est une variable qui prend ses valeurs entre .v min et .Y max la courbe de concentration est 
donc définie en coordonnées paramétriques : 


r 


F= f(t)dt 


d F 


d.Y 


= /(.v) 


<7 = 


£ 


d q 


On a 


tf(t)dt —— = xf{x) 

d.Y m 


dq dq d.Y .y 

dF~ dxdF~m 


_ dq 

On remarque que — = 1 si a = m. 

La courbe possède alors une tangente parallèle à la première bissectrice. 

Aux extrémités du carré les pentes des tangentes sont et respectivement. 

in m 

Si X varie de 0 à œ en particulier, les pentes sont 0 et M (tangente horizontale au départ, 
verticale à l’arrivée). 


S.2.4.2 Indice de concentration ou indice de Gini 


Plus la distribution de X est inégalement répartie, plus la courbe s’éloigne de la première 
bissectrice (distribution ultra concentrée : cas où les 9/10 des individus représentent moins 
de 1 /10 de la masse et où le 1/10 restant concentre la quasi-totalité de la variable). 
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Un indice de concentration proposé par Gini est le double de la surface comprise entre la 
courbe et la bissectrice (fig. 5.8). 



Figure 5.8 


* Indice de Gini théorique 

En prenant la courbe symétrique par rapport à la diagonale, on a : 

G — aire OEBA — aire ODBA ; 


G = Fdq - qdF- 

J o J o 

en multipliant par m les deux membres : 

f + 30 f 

mG = J F(x)xf(x) d.v — inj q(x)f(x) cl a 


mG = 


ni G 


Cil 


/(y) dy 


f(x) dx 


- J J y fi: 


/'(y) dy 


f(x) dLv 


(.v - y)f(x)f( y) dx dy 


Comme (a — y)f(x)f(y) dA dy = 0, il vient : 


mG = 


Soit : 


-n> 

a; 

\ J J \x - y I if Gif (y) d.v dy = i A l 


y )/(*)/( y) d.v d) 

+ - I I (y - x)f(x)fiy) dx dy 


mG = - 
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A. s’appelle la différence moyenne, d’où : 


r- A| 

^ ~ 2m 


. Indice de Gini d’un échantillon 

Si toutes les valeurs .v, de la distribution sont distinctes, la différence moyenne empirique vaut 

1 


d’où : 


A, = 


,.2 Ek- .'-jl 


«(« -l)“ j 

n n 

S É | A-f — A-_,- 
ç _ i — i j — y +_i _ 


n(n - 1)5? 


5.3 RÉSUMÉS NUMÉRIQUES 

Il est indispensable en général de résumer une série d’observations par des indicateurs 
typiques dont le plus connu est la moyenne arithmétique. Il est cependant toujours insuf¬ 
fisant de résumer une série par un seul indicateur. 

Voici une liste typique de résumés numériques pour la variable taux de taxe 
d’habitation 


Tableau 5.4 


Effectif 

= 

100 

Moyenne 

= 

17.7707 

Médiane 

- 

17.625 

Variance 

= 

30.2707 

Écart-type 

= 

5.5019 

Minimum 

--- 

3.68 

Maximum 

= 

36.17 

Étendue 

= 

32.49 

1 er quart île 

= 

15.035 

3 e quart!le 

- 

20.585 

Intervalle inter-quartiles 

= 

5.55 

Asymétrie 

= 

0.368299 

Aplatissement 

= 

4.46798 

Coef. de variation 

= 

31.1164 % 
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5.3. S Caractéristiques de tendance centrale 

Il s’agit en quelque sorte de définir une valeur c autour de laquelle se répartissent les n 
observations (fig. 5.9). 

Les plus usitées sont la médiane, la moyenne arithmétique et le mode. 


*1 *2 

©—©- 


c 


Y5 


Q-@- 


Figure 5.9 


5.3. IJ La médiane 

C'est la valeur M telle que F(M) = 0.50. Si les observations sont rangées par ordre crois¬ 
sant M = x ( „ | )/2 pour n impair. Si n est pair on prendra conventionnellement : 

M = - v »/2 + ji./3+l 
i 


Lorsque l’on ne connaît qu’une répartition en classes (situation à éviter mais que l’on ren¬ 
contre si l’on travaille sur des documents résultant d’un traitement préalable) on cherche la 
classe médiane [<?,■_ ,, e t \ telle que : 

F(e f _,) < 0.5 et F(<? ; ) > 0.5 

et on détermine M par interpolation linéaire : 


L’interpolation linéaire revient à supposer une distribution uniforme à l’intérieur de la 
classe médiane. 

La médiane est un indicateur de position insensible aux variations des valeurs extrêmes 
(elle ne dépend en fait que des valeurs centrales de l’échantillon étudié) mais n’a que peu de 
propriétés algébriques. 


5.3.1.2 La moyenne arithmétique 

| n il 

x = - ^Xj ou x = 2 p,x, pour des données pondérées 

H ;=i /=! 

■Vi £?,■_ | 4" Cj 

Pour des données réparties en k classes la formule jj j]c ,■ avec c f =---donne une 

_ / = i — 

approximation de la moyenne x mais cette situation doit être évitée. 

La moyenne arithmétique est fonction de toutes les observations mais est sensible aux 
valeurs extrêmes : c’est un indicateur peu « robuste » bien qu’universellement utilisé. 
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5 . 3 .1.3 Le mode 

Valeur la plus fréquente pour une distribution discrète ; classe correspondant au pic de 
phistogramme pour une variable continue. Sa détermination est malaisée et dépend du 
découpage en classes. 

Pour une répartition parfaitement symétrique on a : 

Moyenne = mode = médiane 


5.3.2 Caractéristiques de dispersion 

Plus encore que la tendance centrale, la dispersion est la notion clé en statistique car si 
tous les individus avaient la même valeur il n'y aurait plus de raisonnement statistique. .. 

5.3.2.1 L'étendue ou intervalle de variation 

W =X — T > 
ri - v max - v nun 

Dépendante des valeurs extrêmes c’est un indicateur instable. 

5.3.2.2 L'intervalle interquartile 

Les quartiles Q h Q 2 , Q 3 étant définis par F(O t ) = 0.25 F{0 2 ) — 0.50 et F{Q 3 ) = 0.75, 
lôs - Q il est un indicateur parfois utilisé pour mesurer la dispersion : il est plus robuste que 
l'étendue. 

5 .3.2.3 La variance et l'écart-type 

Ce sont les deux mesures les plus fréquemment utilisées. 

La variance x 2 est définie par : 

J 2 = - É Cl - -L 2 ou Xa(-L - â ) 2 

n /= | 

L’écart-type s s’exprime dans la même unité que la variable étudiée. 

Le coefficient de variation exprime en pourcentage le rapport - Il n’a de sens que si 
x > 0. x 

On a les formules suivantes : 

i' 2 = - y^xj - (â) 2 = (moyenne des carrés) moins (carré de la moyenne) ; 

A' 2 = - 2(. Vf — a) 2 — (â — a) 2 , théorème de Kônig-Huyghens. 
n 


Ces deux formules ne présentent d’intérêt que pour des calculs à la main sur des petites 
séries et doivent être prohibées pour des calculs automatiques sur des grandes séries, les som¬ 
mes de carrés pouvant conduire à des dépassements de capacité ou à des pertes de précision. 
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L’algorithme suivant permet de calculer la somme des carrés des écarts SC à la moyenne pour 
n valeurs par ajustement progressif : chaque nouvelle valeur .y, introduite entraîne une modifica¬ 
tion simple et positive de la somme des carrés calculée pour les / — 1 valeurs déjà introduites : 


SC = 0 
T — x \ 


pour j = 2, 3, . . n faire : 


T = T + a,- 


SC = SC + 


(jxj ~ TŸ 


j(j ~ O 

d’où quand j = n, x — T/n et sr = SC/n. 

5.3.3 Cohérence entre tendance centrale et dispersion 


Nous pouvons considérer qu’une valeur centrale c doit être « proche » de l’ensemble des 

1 " 1 

x, et minimiser une fonction du type - Y d(c ; a,) où cl est un écart. D = - Yr/(c ; a,) définit 

n r = i n 

alors une mesure de dispersion des observations autour de c. 

Le choix d’une certaine forme analytique pour d entraîne alors l’usage simultané d’une 
mesure de tendance centrale et d’une mesure de dispersion cohérentes : 

- si d{c ; a,) = (c — A ,-) 2 on a c = â et D = s 2 ; 

- si d(c ; Aj) = |c — Aj| on trouve c = M, c’est-à-dire la médiane et D = - 2k; ~ M|. 
Le couple (Â, i- 2 ) est donc cohérent avec l’usage de distances euclidiennes. 

Géométriquement si l’ensemble des observations de X est considéré comme un vecteur 
de U" : 


x = 


chercher une valeur centrale c revient à chercher une variable constante c’est-à-dire un vecteur : 


c = c 


= cl 


1 
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le plus proche possible de x au sens d’une certaine topologie. 

En munissant R" de la métrique euclidienne usuelle, I est la mesure de la projection de x 
sur A (fig- 5.10). 



Figure 5.10 


5.3.4 Caractéristiques de forme 

Elles sont utiles notamment pour vérifier rapidement le caractère normal d’une distribu¬ 
tion (on sait que le coefficient d’aplatissement théorique de la loi normale est 3) : 

coefficient d’asymétrie : y, = /h 3 /s 3 ; 

- coefficient d’aplatissement : y 2 = in 4 /s A ; 

où m 3 = iSOc,- - J') 3 et/ h 4 = - 2t v ; “ -v) 4 . 
il n 

Les notations ne sont pas universelles et y, est parfois noté y[b,, y 2 noté b 2 . Certains 
auteurs utilisent y 2 — 3. 





Description 
bidimensionnelle 
et mesures de liaison 
entre variables 


Après les descriptions unidimensionnelles on étudie généralement les liaisons entre les 
variables observées : c’est ce que l’on appelle communément l’étude des corrélations. 
Les méthodes et les indices de dépendance varient selon la nature (qualitative, ordinale, 
numérique) des variables étudiées. 

6.1 LIAISON ENTRE DEUX VARIABLES NUMÉRIQUES 

Supposons que l’on observe pour n individus deux variables X et Y. On a donc n couples 
(Xj ; V,) ou encore deux vecteurs x et y de IR" avec : 



*l" 


>i" 


-Y 2 


y 2 

X = 


y = 





_y„_ 


6.1. g Étude graphique de la corrélation 

Afin d’examiner s’il existe une liaison entre X et Y on représente chaque observation 
i comme un point de coordonnées (.y,-, V;) dans un repère cartésien. La forme du nuage 
de points ainsi tracé est fondamentale pour la suite : ainsi la figure 6.1 montre : 

a) une absence de liaison ; 

b) une absence de liaison en moyenne mais pas en dispersion ; 

c) une corrélation linéaire positive ; 

d) une corrélation non linéaire. 





On dit qu’il y a corrélation si il y a dépendance en moyenne : à X = .* fixé la moyenne ■ 
Y est Fonction de .v. Si cette liaison est approximativement linéaire on se trouve dans le cas 
de la corrélation linéaire. 

Rappelons que la non corrélation n’est pas nécessairement l’indépendance. 


6. i.2 Le coefficient de corrélation linéaire 


Ce coefficient dit de « Bravais-Pearson » mesure exclusivement le caractère plus ou moins 
linéaire du nuage de points. 


6.1.2.1 Définition 



1 " 

Le numérateur - y.(x f — a)(V/ — v) est la covariance observée. 

«i=i 

De même que pour p (voir chapitre 3) dont il est la version empirique : — 1 < r < 1 
et | r \ = 1 est équivalent à l’existence d’une relation linéaire exacte : ax, 4- Z?y f + c = 0 Vf. 

Si l’on considère dans l’espace IR' 1 les deux vecteurs : 



r est le cosinus de l’angle formé par ces deux vecteurs comme un calcul élémentaire le 
montre, d’où ses propriétés. 
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6 1.2.2 Du bon usage du coefficient r 

r ne mesure que le caractère linéaire d’une liaison et son usage doit être réservé à des 
nuages où les points sont répartis de part et d'autre d’une tendance linéaire (fig. 6.1c du 
paragraphe précédent). 

Par contre, la figure 6.2 (| ) montre les risques d'un usage inconsidéré du coefficient de 
corrélation linéaire r. On notera en particulier que r est très sensible aux individus extrêmes 
et n’est donc pas « robuste ». 



Figure 6.2 


Les 4 nuages de la figure 6.3 ont mêmes moyennes, mêmes variances et même coefficient 
de corrélation : 

x = 9 y = 7.5 

4 = 10.0 sj - 3.75 

r = 0.82 

Seul le premier nuage justifie l’usage de r. 


1 ^Cailliez et Pagès, 1976. 
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Figure 6.3 


Notons pour finir que la corrélation n’est pas transitive : x très corrélé avec y, y très 
corrélé avec z, n’implique nullement que x soit corrélé avec z. 

6.1.2.3 Matrice de corrélation entre p variables 

Lorsque l’on observe les valeurs numériques de p variables sur n individus on se trouve 
en présence d’un tableau X à n lignes et p colonnes : 

1 2 ... j ... p 

1 T 

i 


x = / . xi 


n 


xj est la valeur prise par la variable n n y sur le i cmc individu. 

Le tableau des données centrées Y s’obtient en utilisant l’opérateur de centrage 

11 ' 

A = I-. 
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Y = AX. 

A est la matrice n X n de terme général : 
1 1 


La matrice des variances et covariances des p variables : 


• Ç I2 

n 

JS 




ou : 


= - S 4*1 


est telle que V = - Y'Y. 

n 

La matrice regroupant tous les coefficients de corrélation linéaire entre les p variables 
prises deux à deux est notée R : 


En posant : 


R = 


1 r 12 

1 




D|/, v 


I ls 2 

0 


0 

Ms p _ 


On a R = D,/ t VD 1/s . 

R est identique à la matrice de variance-covariance des données centrées et réduites. 
R résume la structure des dépendances linéaires entre les p variables. 

Comme V. R est une matrice symétrique positive. 
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sm Exemple : Les résultats suivants concernent 6 variables du tableau de données Figurant 
au chapitre 17 et donnant pour 18 véhicules des caractéristiques techniques. 

La matrice V est calculée avec n — 1 en dénominateur : 

Matrice de variance et covariance V 

CYL PUIS LON LAR 

CYL 139823.5294 6069.7451 5798.7059 1251.2941 

PUIS 6069.7451 415.1929 288.9118 56.3922 

LON 5798.7059 288.9118 483.7353 99.7647 

LAR 1251.2941 56.3922 99.7647 2B.2353 

POIDS 40404.2941 2135.6961 2628.3824 521.7059 

VITESSE 3018.5686 208.8791 127.7353 30.5098 


La matrice R est la suivante : 

Matrice de corrélation R (Bravais-Pearson) 



CYL 

PUIS 

LOM 

LAR 

POIDS 

VITESSE 

CYL 

1.00000 

0.79663 

0.70146 

0.62976 

0.78895 

0.66493 

PUIS 

0.79663 

1 . 00000 

0.64136 

0.52083 

0.76529 

0.84438 

LON 

0.70146 

0.64136 

1.00000 

0.84927 

0.86809 

0.47593 

LAR 

0.62976 

0.52083 

0.84927 

1 . 00000 

0.71687 

0.47295 

POIDS 

0.78895 

0.76529 

0.86809 

0.71687 

1.00000 

0.47760 

VITESSE 

0.66493 

0.84438 

0.47593 

0.47295 

0.47760 

1 . 00000 


On constate que toutes les variables sont corrélées positivement, avec certains coefficients 
très élevés : il existe donc une forte redondance entre les variables, ce qui conduit à un 
phénomène dit de multicolinéarité (voir chapitre 17). 

La figure suivante, appelée matrice de dispersion, est très utile : elle permet en un seul 
graphique déjuger des liaisons entre toutes les variables. cm 


POIDS 
40404.2941 
2135.6961 
2628.3824 
521.7059 
18757.4412 
794.1078 


VITESSE 
3 018.5686 i 
208.8791 ' 
127.7353 
30.5098 
794.1078 
147.3389 ■ 



Figure 6.4 Matrice de dispersion 
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5 j .3 Caractère significatif d’un coefficient de corrélation 

En admettant que Ton se trouve dans le cas où l’usage de r est justifié, à partir de quelle 
valeur la liaison est-elle significative ? 

En anticipant sur la théorie des tests on raisonne comme suit : si les n observations avaient 
été prélevées au hasard dans une population où X et Y sont indépendantes (donc où p = 0) 
quelle seraient les valeurs possibles de r ou plus exactement la distribution de probabilité de 
la variable R qui correspond ù cet échantillonnage ? 

Lorsque p = 0 et que les observations proviennent d’un couple gaussien la distribution de 
/j est relativement facile à obtenir. 


On montre que : 


X~R 2 




— 2 suit une loi T n _ 2 


Par changement de variable on en déduit alors directement la densité de R si p = 0 : 


f(r) 



(1 - r 2 ï"- 4) ' 2 


Pour n = 4, on remarquera que R suit une loi uniforme sur [— 1, 1] et donc que toutes les 
valeurs possibles sont équiprobables. 


On a : 


1 

E(R) = 0 et V(R) = - 

n — 1 


Pour n > 100, la loi de R est approximée de très près par une loi de Laplace-Gauss : 


LG 




Sinon la loi de R est tabulée, Table A.9. 

Ainsi au risque 5 % on déclarera qu’une liaison est significative sur un échantillon de 
30 observations si | rj > 0.36. 

On remarquera que le seuil de signification décroît quand n croît ; le fait de trouver 
que r diffère significativement de 0 ne garantit nullement que la liaison soit forte (voir 
chapitre 16). 

Lorsque p est différent de zéro la loi exacte de R bien que connue est très difficilement 
exploitable on notera cependant que : 


E(R) - p 


P(1 ~ P 2 ) 
2 n 


V(R) = 


G - P 2 ) 2 


R est biaisé pour p 


n - 1 
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La figure 6.5 donne les distributions d'échantillonnage de r pour différentes valeurs de p, 
avec n = 10. On ne peut pas faire directement une approximation normale. On utilisera 
plutôt le résultat suivant conduisant à une approximation correcte dès que n > 25. 


r- 3 



-1 -0.5 0 0.5 1 

Figure 6.5 



Z est la transformée de Fisher de R (table A. 10). On noiera que V(Z) est indépendant de p. 
Cette transformation permet de tester des valeurs a priori pour p et de trouver des interval¬ 
les de confiance pour p à partir de R. On peut également utiliser l’abaque fourni en annexe 
(table A 1.9 bis). 

Lorsque le couple (X, Y) n’est pas gaussien les résultats précédents restent utilisables 
à condition que n soit grand (en pratique n > 30), mais le fait de trouver que r n’est pas 
significativement différent de 0 n’entraîne pas nécessairement l’indépendance. 

6.1.4 Corrélation partielle 

Il arrive fréquemment que la dépendance apparente entre deux variables soit due en réalité 
aux variations d’une troisième variable. La littérature statistique abonde en exemple de fausses 
corrélations surprenantes entre phénomènes variés qui disparaissent lorsque l’on fixe une troi¬ 
sième variable (souvent non aléatoire comme le temps) ainsi de la corrélation entre le nombre 
de maladies mentales déclarées chaque année et le nombre de postes de radio installés. 

Les coefficients de corrélation partielle constituent un moyen d’éliminer l’influence d’une 
ou plusieurs variables. 

Ces coefficients peuvent être introduits de diverses façons en particulier dans le cadre de 
la régression multiple (chapitre 17). Nous en donnerons ici deux présentations, l’une issue 
du modèle gaussien, l’autre géométrique. 
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6.1.4.1 Le modèle normal à p dimensions 

Soit un vecteur aléatoire (X,. X 2 ,... X p ) suivant une loi N p (jx, 2). En appliquant les résul¬ 
tats du chapitre 4, paragraphe 4.2.4, on sait que la loi du couple X, X 2 conditionnée par 
j 3 X 4 . ■ • X p est une loi normale à deux dimensions. On obtient alors le coefficient de corré¬ 
lation partiel (ou conditionnel) p| 2 . 34 ,,, à partir de la matrice des covariances partielles. 

Un calcul simple montre qu’en particulier pour p — 3 : 

_ P'i-V. ~ P.r,.v,P.T,-r, 

P-V, .v,. X; r~ -——- 

Va - pjja - Pi,; 

Cette formule se généralise et permet de calculer de proche en proche les divers coeffi¬ 
cients de corrélation partielle : 

P-n • -n -n P.v, . .r, x 4 n • • - 

.Pour obtenir p r| V ,. Vvrj il suffit de remplacer dans la formule précédente les corrélations 

simples par les corrélations partielles : 

P.f| n . _r, — P.r, n •■Vj P.r : .r 4 ..v, 

P.r, r, .-V V V 4 — ) 

Va - pln,.v,)(l - pln-.r,) 

On définit alors formellement le coefficient de corrélation linéaire partielle empirique en 
remplaçant p par r. 

6.1.4.2 Corrélation entre résidus 

Ayant défini r Xi Vv par les formules précédentes, il est facile de vérifier que ce coefficient 
mesure la corrélation entre le résidu de l’ajustement linéaire de x, sur x 3 et celui de l’ajuste¬ 
ment de x 2 sur x 3 . 

Interprétation géométrique dans IR' 1 : Nous supposerons x h x 2 . x 3 centrées. 
ÿ 3 est la projection de X! sur x 3 . 
x est la projection de x, sur le plan x 2 , x 3 (fig. 6.6), 



Figure 6.6 


On a alors cos0 = /* ti et coscp = r Xt Vi ._ v cp est la projection de l’angle entre x ( et x 2 sur un 
plan perpendiculaire à.v 3 . 
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On peut vérifier ainsi que r r|V ,. t( est le coefficient de corrélation linéaire entre la partie de 
X| non expliquée linéairement par x 3 et la partie de x 2 non expliquée linéairement par x v On 
voit que si x 3 est très voisin de x 2 la corrélation partielle est voisine de 0 car x 2 n’apporte 
presque pas d’information supplémentaire surx, une fois x 3 connu. 

6.1.4.3 Signification d'un coefficient de corrélation partielle 

Dans le cas gaussien, on démontre que la loi du coefficient de corrélation partielle est la 
même que celle d’un coefficient de corrélation simple mais avec un degré de liberté diminué 
de d. nombre de variables Fixées. 

Donc — _ d — 2 suit un T„ ce qui permet de tester le caractère significatif 

VI - >’ 2 

d'une liaison partielle. 

bsi Exemple : (voir les données complètes au chapitre 17 « Régression multiple ») Sur 
l’échantillon de 18 automobiles, la matrice de corrélation entre prix, vitesse et puissance est : 


Prix 


Vitesse Puissance 


Prix 

Vitesse 

Puissance 


1 

0.58176 
_ 0.79870 


0.58176 

1 

0.84438 


0.79870 
0.84438 
1 


Au seuil 5 % toutes ces corrélations sont significatives (valeur critique 0.468). 


Cependant, le coefficient de corrélation entre le prix et la vitesse sachant la puissance vaut : 


0.58176 - 0.79870 X 0.84438 
- 7 =___- - ._ = -0.28739 

V(1 - (0.79870) 2 ) (1 - (0.84438) 2 ) 


La liaison a changé de signe mais elle n’est plus significative (valeur critique h 5 % : ; 
0.482). su;: 


6.2 CORRÉLATION MULTIPLE ENTRE UNE VARIABLE 

NUMÉRIQUE ET p AUTRES VARIABLES NUMÉRIQUES 


6.2.1 Définition 

Soit une variable numérique y et un ensemble de p variables également numériques: 
X 1 , x : ,.. . x r . 

Le coefficient de corrélation multiple R est alors la valeur maximale prise par le coeffi¬ 
cient de corrélation linéaire entre y et une combinaison linéaire des x j : 



On a donc toujours 0 ^ R ^ 1. 
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R = I si il existe une combinaison linéaire des x j telle que : 

b 

y = oo + S 

j= ' 

6 .2.2 interprétation géométrique 

Rappelons que le coefficient de corrélation est le cosinus de l’angle formé dans R" par des 
variables centrées. R est donc le cosinus du plus petit angle formé par y (centrée) et une com¬ 
binaison linéaire des x' centrées. 

Considérons le sous-espace VV de IR” (de dimension au plus égale h p + 1) engendré par 
les combinaisons linéaires des x J et la constante 1 . 

R est alors le cosinus de l’angle B formé par la variable centrée y — ÿ et W, c’est-à-dire 
l’angle formé par y — ÿ et sa projection orthogonale y :,: — ÿ sur W (fig. 6.7). 


y 



Figure 6.7 


6.2.3 Calcul de R 

Soit A la matrice de projection orthogonale sur W, alors : 

(y - ÿ)' A(y - ÿ) si. 


R 2 = 

En particulier si y est centré : 


Il y 


_ 

T 

sz 


R 2 = 


y'Ay 


y y 


En effet ||Ay[| 2 = cos 2 0||y|| 2 et ||Ay|| 2 = y'A'Ay = y'Ay car A est un projecteur 
orthogonal (A = A' et A 2 = A). 
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Si X désigne la matrice dont les colonnes sont les p variables x 1 , x : .. x 1 ’ centrées et si 

y est centrée : 


y # X(X'X)-X # y 


y y 


où (X'X) est une inverse généralisée quelconque de (X'X). 

On peut démontrer alors la formule reliant corrélation multiple et corrélations partielles 
des divers ordres : 


l - = 0 - >i,)ü - 'iL.t.Xl - - rj X '. XiX3 '" Xp j 


6.2.4 Signification d’un coefficient de corrélation multiple 

Si les n observations étaient issues d’une population gaussienne où Y est indépendante des 
X j alors on démontre que (voir chapitre 17) : 


R 2 n — p ~ 

1 

- ta 

1 - R 2 p 

r\.P* n P 

U 


On retrouve comme cas particulier la loi du coefficient de corrélation linéaire simple en 
faisant p = l. 


6.3 LIAISON ENTRE VARIABLES ORDINALES : 

LA CORRÉLATION DES RANGS 

Il arrive souvent de ne disposer que d’un ordre sur un ensemble d’individus et non de 
valeurs numériques d’une variable mesurable : soit parce qu’on ne dispose que de données 
du type classement (ordre de préférence, classement A, B, C, D, E), ou bien parce que 
les valeurs numériques d’une variable n’ont que peu de sens et n’importent que par leur 
ordre (notes d’une copie de français : avoir 12 ne signifie pas valoir deux fois plus que celui 
qui a 6). 

A chaque individu de 1 à n on associe son rang selon une variable (un rang varie de 1 à n). 
Étudier la liaison entre deux variables revient donc à comparer les classements issus de ces 
deux variables : 


Objet : 1 2 

Rang n° 1 : r, r 2 

Rang n° 2 : s, s-, 


Les r,- et s t sont des permutations différentes des n premiers entiers. 
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6.3.1 Le coefficient de Spearman 

Le psychologue Charles Spearman a proposé en 1901 de calculer le coefficient de corréla¬ 
tion sur les rangs : 


i\ = 


cov(/\ s) 

S r S s 


Le fait que les rangs soient des permutations de [1 . . . /i] simplifie les calculs et Ton a en 
l’absence d’ex aequo : 


n + 1 , -j îr — 

r = s = - s~(r) = £-(£) =- 

2 12 


d’où : 


1 

- 2 /i-ù 
a i 


n + l\~ 


ii~ — 


12 


Si l’on pose cl i = r f — x ( - différence des rangs d’un même objet selon les deux classements, 
on a : 

2 ; ’i J/ = ~ ■*<•)“ + ^ 


mais : 


v , v -, n{n + 1)(2 /î + 1 ) 

ln = 2^r =- 7 - 


somme des carrés des nombres entiers, d’où : 

(n + 1 )(2/i + 1) (n + 1 

_ , 6 ~ 

n(ir - 1 ) n 2 - 1 

12 

Le deuxième terme vaut 1 après calcul et on a la formule pratique : 

6 b d f 

2 = 1 ~ n 

La définition de r s comme coefficient de corrélation linéaire sur des rangs nous indique 
que : 

r x = 1 ==> les deux classements sont identiques ; 

i\ - — 1 => les deux classements sont inverses l’un de l’autre ; 

r t = 0 ==> les deux classements sont indépendants. 


6 b (î ï 
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Pour savoir si la valeur trouvée de est significative, on se reportera à la table du coeffi¬ 
cient de corrélation de Spearman fournie en annexe <2) 

La région critique sera |7?J > k : 

- si R s > k : il y a concordance des classements ; 

- si R s < -k: il y a discordance des classements. 

Lorsque les observations proviennent d’un couple normal (X, Y) de corrélation p et que 
l'on calcule r, à la place de r on montre que si n est très grand on a les relations approchées 
suivantes : 

6 . - . (TT 

r s — — Arc sin I - j ou p — 2 sin I— r, 

6.3.2 Le coefficient de corrélation des rangs t de M. G. Kendall 
6.3.2. I Aspect théorique 

Afin de savoir si deux variables aléatoires X et Y varient dans le même sens ou en sens 
contraire on peut considérer le signe du produit (X, — X 2 )(y, — Y 2 ) où (X,, L,) (X 2 . F 2 ) sont 
deux réalisations indépendantes du couple (X, Y). 

Si P((X ] - X 2 )(F] — Y 2 ) > 0) > 1/2 il y a plus de chances d’observer une variation dans 
le même sens que dans le sens inverse. 

On définit alors le coefficient théorique t par : 

t = 2P((X, - X 2 )(F, - y 2 ) > 0) - 1 

Ce coefficient est donc compris entre — 1 et +1 et s’annule lorsque X et y sont indépen¬ 
dantes (mais pas seulement dans ce cas . ..). 

Si (X, Y) est un couple gaussien de coefficient de corrélation p on montre que : 

2 

t = — Arc sin p 
rr 

On remarquera que t < p. t = p n’est vrai que pour p = 0 et p = ± L 
Notons enfin que : 

r = P((X, - XjXYi - Yj) > 0) - P ((X, - Xj)(Yi ~ Yj ) < 0) = p c - p d 
où p c et p ( , sont respectivement les probabilités de concordance et de discordance. 

6.3.2.2 Calcul sur un échantillon 

En s’inspirant des considérations précédentes : 

On considère tous les couples d’individus. On note 1 si deux individus i et / sont dans le 
même ordre pour les deux variables : .v ( < Xj et v,- < v,-. 



2raCette table est obtenue en utilisant le fait que dans le cas d’indépendance, les n! permutations d’un classement 
sont équiprobables. 
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On note - 1 si les deux classements discordent .y,- < Xj et v ; > Vj. 

On somme les valeurs obtenues pour les —-- couples distincts, soit S cette somme ; 


on a : 


'S'niii: 


S ' 



Le coefficient t est alors défini par : 


25 

n(n — 1) 


On constate que : 

. 7 — 1 classements identiques ; 

t = — 1 classements inversés. 

Pour savoir si la valeur constatée est significative on se réfère à la situation théorique 
d’indépendance dans la population. 

On peut alors obtenir la distribution de t par des arguments combinatoires mais celle-ci 
peut être approchée par une loi de Laplace-Gauss : 


LG| 0; 


J 2(2n + 5) \ 
V 9n(n - l)J 


L’approximation est très bonne dès que n ^ 8, ce qui est un avantage pratique sur le coef¬ 
ficient de Spearman, si l’on ne dispose pas de tables de ce dernier. 

Méthode de calcul rapide : on ordonne les x, de 1 à n ; on compte pour chaque x { le nom¬ 
bre de yj> Yj parmi ceux pour lesquels j > i. On somme ; soit R cette somme : 


5 = 2R 


n(n - 1) 

i 


AR 

n(n - 1) 


m Exemple : 10 échantillons de cidre ont été classés par ordre de préférence par deux 
gastronomes : 


X, 

12 3 4 

5 

6 7 

8 

9 10 

Xi 

3 14 2 

6 

5 9 

8 

10 7 




n(n 2 - 1) 


Le coefficient de Spearman : 


vaut r s — 0.84 
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Le coefficient de Kendall s’obtient par : 

/? = 7t8 + 6 + 6 + 4 + 4+ 1 + 1" 37 
S = 74 - 45 - 29 

d’où t = 0.64. 

Les valeurs critiques de et de t au seuil 5 % bilatéral sont : 


/• = ±0.648 et t = ±1.96 A —- = ±0.49 

\ 90 X 9 

Les deux valeurs de t et de r s laissent donc apparaître une liaison significative entre les 
deux classements. m 

A part le cas où les variables sont ordinales, les coefficients de corrélation des rangs sont 
très utiles pour tester l’indépendance de deux variables non normales lorsque l'échantillon 
est petit : on sait en effet qu’on ne peut appliquer alors le test du coefficient de corrélation 
linéaire. Les tests de corrélation des rangs sont alors les seuls applicables, car ils ne dépen¬ 
dent pas de la distribution sous-jacente. 

Ils sont robustes car insensibles à des valeurs aberrantes. 

Les coefficients de corrélation de rangs sont en fait des coefficients de dépendance 
monotone car ils sont invariants pour toute transformation monotone croissante des variables. 

Les coefficients de corrélation de rang permettent de tester l’existence d’une relation mono¬ 
tone entre deux variables. Ainsi le nuage de points suivant où y = ln(x) donne un coefficient de 
corrélation linéaire r = 0.85 mais des coefficients de Spearman et de Kendall égaux à 1. 


5 tr 

4 r 

3 : 0 

2 r * 

O 

1 r 

0 h*.-. 

0 20 40 60 80 100 

x 

Figure 6.8 


Lorsque les coefficients de corrélation de rang sont nettement supérieurs au coefficient de 
corrélation linéaire, des transformations monotones non linéaires sur certaines variables peu¬ 
vent se révéler utiles. 
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6.3.3 Coefficients de Daniels et de Guttman 

Les trois coefficients de corrélation (Pearson, Spearman, Kendall) peuvent être présentés 
comme 3 cas particuliers d’une même formule, dite formule de Daniels. 

On considère pour toute paire d’individus i,j deux indices a y et b ÿ le premier associé à la 
variable X, le deuxième associé à la variable Y (par exemple a Vj = ,v, — Xj) et on définit le 
coefficient suivant : 

^ a ij h ij 


qui varie entre — l et +1 d’après l’inégalité de Schwarz. 

En prenant o if — — Xj et b v = y t — yj on trouve le coefficient r de Bravais-Pearson 

(2 S(a-,- — xj) 2 = 2 n 2 s 2 par un calcul évident). 

En prenant a y — r { — r } et b,j = — Sj où les r et les s sont les rangs de classement selon 

X et Y on obtient le coefficient de Spearman. 

En prenant : 


a„ ~ signe de (r,- - x) = —'- 

- Xj\ 

bÿ = signe de (y f - yj) 

on obtient le coefficient t de Kendall. 

Mentionnons enfin le coefficient de monotonicité de Guttman : 

S(.v,- - Xj)(y, - yj) 

^ S|.Y; - XjWy’i ~ Vy| 

qui ne rentre pas dans la catégorie des coefficients de Daniels mais qui possède des proprié¬ 
tés intéressantes. 


6.3.4 Le coefficient W de Kendall de concordance 
de p classements 

Soient n individus (ou objets) été classés selon p critères (tableau 6.1) : 


Tableau 6.1 


^^^Objets 

Critères\^^ 

1 

2 


n 

1 

Di 

Gi 


G.i 

2 

r 12 

r 21 


r n2 

P 

G, 

r 2p 


1 np 

Total 

1 

r \. 

r 2 . 


G. 
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Chaque ligne du tableau est une permutation des entiers de 1 à n. La somme des termes 

. n(n + 1) n(n + 1) 

d une ligne étant-, on a r = p ---. 

2 2 

Si les p classements étaient identiques (concordance parfaite) les totaux de colonnes 
t*|, /- 2 ,. . /*„ seraient égaux, à une permutation près, à p , 2 p, 3/>, . . np ; en effet, tous les 

termes d’une même colonne seraient identiques. 

Pour étudier la concordance entre ces classements on utilise la statistique : 


5 = 



qui mesure la dispersion des totaux de colonnes par rapport à leur moyenne. On vérifie sans 
peine que S est maximal s’il y a concordance parfaite et que : 


= p 2 (n 3 - n) 

^max j /-j 

Le coefficient de concordance de Kendall est : 


p 2 (« 3 -n) 

On a donc 0 < W < 1. 

Le cas limite VL = 0 s’obtient si tous les totaux de colonnes sont identiques, une faible 
valeur de VL indiquant l'indépendance entre les classements. On notera que la discordance 
parfaite entre p classements ne peut exister : il ne peut y avoir discordance parfaite entre plus 
de deux classements. 


Le coefficient VL est relié aux coefficients de corrélation des rangs de Spearman entre les 
classements pris deux à deux par la formule suivante : 


r, 


pW - 1 
P ~ 1 


où r s est la moyenne arithmétique des C 2 coefficients de corrélation de Spearman entre 
classements. 


Test de l’hypothèse H 0 d’indépendance mutuelle des p classements : 

Pour les faibles valeurs de p et n, la distribution de VL a pu être calculée sous l’hypothèse 
H {) en considérant les (ni) 1 ’ permutations équiprobables des p lignes du tableau. 

On rejette H 0 si W est trop grand et on se reporte à la table fournie en annexe pour les 
valeurs critiques de S à a = 0.05. 


Pour ;z > 15 et pour p < 7, 


(P ~ i)W 
1 - VL 


est distribué sous // () , comme une variable 


F n - 1 - - ; (p 
P 


l) 




Pour p ^ 7 on admet que p(n — 1) VL est distribué comme un xü-i- 
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Si l’on rejette l’hypothèse H () d’indépendance des p classements, quel classement final 
attribuer aux n objets ? 

On admet en général la procédure suivante qui est de classer les objets selon l’ordre 
défini par la somme des colonnes ; cette procédure possède la propriété de maximiser 
la somme des coefficients de corrélation de Spearman entre le nouveau classement et les 
p classements initiaux (3) . 

Cas des ex aequo : pour calculer S, on remplace le rang des ex aequo dans un même clas¬ 
sement par la moyenne arithmétique des rangs qu’ils auraient obtenus si il n’y avait pas eu 
d’e.v aequo (ceci conserve la somme des lignes). 

La valeur de S mM étant alors modifiée, on remplace W par : 


W 


12 S 


p 2 (n 3 - ;/) - p^(t] - tj) 

J= i 


où tj est le nombre d’e.v aequo du j anü classement. 


6.4 LIAISON ENTRE UNE VARIABLE NUMÉRIQUE 
ET UNE VARIABLE QUALITATIVE 

6.4.1 Le rapport de corrélation théorique (rappel) 

La mesure, ici non symétrique, de la liaison est le rapport de corrélation ri Y /x défini par : 


V[E(Y/%)\ 


En effet on peut appliquer lorsque la variable $? n’est pas quantitative mais qualitative 
à k modalités (voir chapitre 3). 

6.4.2 Le rapport de corrélation empirique 

Si âf a k catégories on notera u h n 2 , ..., n k les effectifs observés et ÿ l5 ÿ 2 ,. . ÿ* les 
moyennes de Y pour chaque catégorie (il est indispensable qu’au moins un des iq soit supé¬ 
rieurs à 1) et y la moyenne totale. 


3 ra D'autres procédures basées sur la règle de la majorité de Condorcet sont possibles (voir l'ouvrage de 
). F. Marcotorchino et P. Michaud, 1979) : recherche de l'ordre maximisant la somme des coefficients de Kendall. 
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Si l’on note e 2 l’équivalent empirique de i) 2 on a : 



e 2 = 0 si y, = y 2 = . .. = y L d’où absence de dépendance en moyenne. 

e~ = 1 si tous les individus d’une catégorie de cJC ont même valeur de Y et ceci pour chaque 
catégorie car : 

s~ = - 2'h(.v, ~ y) 2 + - X'W 

»,-=) «,■= i 

où les .ç 2 sont les variances de y à l’intérieur de chaque catégorie : 


a) - ^(y, — y) 2 est appelée variance intercatégories. 


A) est appelée variance intracatégories. 


On remarquera que si l’on attribue à chaque catégorie / de $C une valeur numérique 
égale à y,- ce qui revient à transformer en une variable numérique X à k valeurs, e 2 est 
alors égal à r 2 (Y :X) et que toute autre quantification conduit à une valeur de r 2 inférieu¬ 
re (voir plus loin). 

Lorsqu’il n’y a que deux classes de moyennes ÿ, et ÿ 2 '• 

n \"2 - y » 

—T- (3’i - y:) - 
, n~ 


e~ = 


x- 


Pour déterminer à partir de quelle valeur e 2 est significatif on compare la variance inter à 
la variance intra : on montrera plus tard au chapitre 16 que si -q 2 = 0 alors : 



Ce résultat suppose que les distributions conditionnelles de Y pour chaque catégorie de X 
sont gaussiennes avec même espérance et même écart-type. 

On remarque que le nombre de classes intervient dans les degrés de liberté de la loi de 
Fisher-Snedecor : on ne peut donc comparer les rapports de corrélation entre Y et deux vari¬ 
ables qualitatives ayant des nombres différents de catégories. 

Lorsqu’aucune confusion n’est à craindre, l’usage est de noter t^ 2 le carré du rapport de 
corrélation empirique, c’est ce que nous ferons désormais. 
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Reprenons l’exemple du 5.3.2.2 sur les variations du taux de taxe d'habitation Y selon la 
zone géographique X : le rapport de corrélation est tel que : 
r}\Y/X) = 0.56 et correspond à F = 20.05 

6.4.3 interprétation géométrique et lien 

avec le coefficient de corrélation multiple 

Associons à la variable qualitative B£ à k modalités les k variables numériques suivantes 
indicatrices des modalités : 

l 1 ; F;...; F 

telles que : 

jjf = 1 si l’individu i est dans la catégorie j de c£ ; 

= 0 sinon. 

. Soit alors X le tableau de données à n lignes et k colonnes correspondant aux indicatrices 

de BC : 

"10 0 
0 1 0 

1 0 0 

X = . 


0 0 1 


Le total des éléments de la colonne j de X vaut iy. 

Un simple calcul permet alors de vérifier que : 

~ y'X(X’Xr'X'y 



T]yy'|- est alors le cosinus carré de l’angle formé par le vecteur y centré et le sous-espace 
W de dimension k de IR" engendré par les variables indicatrices. 

Le rapport de corrélation de Y en âf s’identifie donc au coefficient de corrélation multi¬ 
ple avec les indicatrices de : 


. 1 ‘) 
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Définir une combinaison linéaire des indicatrices Xa, H 7 revient à attribuer à chaque 
catégorie j une valeur numérique donc à rendre SC numérique ce qui implique que : 

= '~(y ; = sup i 2 (y ; 2-fl,ïl y j 

6.5 LIAISON ENTRE DEUX VARIABLES QUALITATIVES 

6.5.1 Tableau de contingence, marges et profils 

Soit SC et fy deux variables qualitatives à r et s catégories respectivement décrivant un 
ensemble de n individus. On présente usuellement les données sous la forme d’un tableau 
croisé appelé tableau de contingence à r lignes et 5 colonnes renfermant les effectifs 72 ÿ 
d'individus tels que SC = ,v f et SU = yj (voir tableau 6 . 2 ) : 

Tableau 6.2 


Ü 2J 

)’i y: . yj . y s 

se 



Avec des notations standard on a et n.j = 

j i 

Les n y. et les n mj s’appellent respectivement marges en lignes et marges en colonnes. 

La constitution d’un tel tableau est l’opération que les praticiens des enquêtes appellent 
un « tri croisé ». 

Deux lectures différentes d’un même tableau de contingence sont possibles selon que l’on 
privilégie l’une ou l’autre des deux variables : lecture en ligne ou lecture en colonnes. 

n ij 

On appelle tableau des profils-lignes le tableau des fréquences conditionnelles — 
(la somme de chaque ligne est ramenée à 100 %) et tableau des profils-colonnes le tableau 

n jj 

des fréquences conditionnelles — (le total de chaque colonne est alors ramené à 100 %). 
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Exemple : Le tableau 6.3 provient de l’enquête sur les vacances des Français en 1999, 
publiée par l’INSEE en mai 2002. 

On appelle vacances tout déplacement comportant au moins 4 nuitées consécutives 
en dehors du domicile, effectué pour des motifs autres que professionnels, études ou 
santé. Un voyage peut comporter un ou plusieurs séjours (4 nuits consécutives au même 
endroit). 

En 1999 près d'un français sur quatre n’était pas parti en vacances, le tableau de contin¬ 
ence ne concerne donc que ceux qui sont partis. 

L’unité statistique est ici le séjour, décrit par deux variables qualitatives : la catégorie 
socio-professionnelle de la personne de référence du ménage en 8 modalités et le mode 
d’hébergement en 9 modalités. La taille de l’échantillon est 18 352. 


Tableau 6.3 Tableau de contingence 



Hôtel 

Location 

Rsec 

Rppa 

Rspa 

Tente 

Caravane 

AJ 

VillageV 

Agriculteurs 

41 

47 

13 

59 

17 

26 

4 

9 

19 

Artisans, 

commerçants, 

chefs 

d’entreprise 

220 

260 

71 

299 

120 

42 

64 

35 

29 

Cadres et 
professions 
intellectuelles 
supérieures 

685 

775 

450 

1242 

706 

139 

122 

100 

130 

Professions 

intermédiaires 

485 

639 

292 

1250 

398 

189 

273 

68 

193 

Employés 

190 

352 

67 

813 

163 

92 

161 

49 

72 

Ouvriers 

224 

591 

147 

1204 

181 

227 

306 

74 

114 

Retraités 

754 

393 

692 

1158 

223 

25 

195 

47 

115 

Autres inactifs 

31 

34 

2 

225 

42 

33 

5 

6 

14 


On déduit du tableau 6.3 les deux tableaux de profils suivants (6.4 et 6.5) qui permettent 
deux types de lecture : le tableau des profils-lignes permet de comparer les modes d’héber¬ 
gement des différentes catégories socio-professionnelles (où vont les cadres ? etc.) tandis 
que le tableau des profils-colonnes permet de savoir qui fréquente tel mode (qui sont les 
clients des hôtels ?). 
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Tableau 6.4 Tableau des profils-lignes 



Hôtel 

Location 

Rsec 

Rppa 

Rspa 

Tente 

Caravane 

AJ 

VillageV 

-- 

Total 

Agriculteurs 

0.174 

0.200 

0.055 

0.251 

0.072 

0.111 

0.017 

0.038 

0.081 

l 

Artisans, 

commerçants, 

chefs 

d’entreprise 

0.193 

0.228 

0.062 

0.262 

0.105 

0.037 

0.056 

0.031 

0.025 

l 

Cadres et 
professions 
intellectuelles 
supérieures 

0.158 

0.178 

0.103 

0.286 

0.162 

0.032 

0.028 

0.023 

0.030 

1 

Professions 

intermédiaires 

0.128 

0.169 

0.077 

0.330 

0.105 





■ 

Employés 

0.097 

0.180 

0.034 

0.415 

0.083 

0.047 

0.082 

0.025 

0.037 

1 

Ouvriers 

0.073 

0.193 

0.048 

0.392 

0.059 

0.074 

0.100 

0.024 

0.037 

1 

Retraités 

0.209 

0.109 

0.192 

0.321 

0.062 

0.007 

0.054 

0.013 

0.032 

1 

Autres inactifs 

0.079 

0.087 

0.005 

0.574 

0.107 

0.084 

0.013 

0.015 

0.036 

1 


Tableau 6.5 Tableau des profils colonnes 



Hôtel 

Location 

Rscc 

Rppa 

Rspa 

Tente 

Caravane 

AJ 

VillageV 

Agriculteurs 

0.016 

0.015 

0.007 

0.009 

0.009 

0.034 

0.004 

0.023 

0.028 

Artisans, 

commerçants, 

chefs 

d’entreprise 

0.084 

0.084 

0.041 

0.048 

0.065 

0.054 

0.057 

0.090 

0.042 

Cadres et 
professions 
intellectuelles 
supérieures 

0.260 

0.251 

0.260 

0.199 

0.38'2 

0.180 

0.108 

0.258 

0.190 

Professions 

intermédiaires 










Employés 

0.072 

0.114 

0.039 

0.130 

0.088 

0.119 

0.142 

0.126 

0.105 


0.085 

0,191 

0.085 

0.193 

0.098 

0.294 

0.271 

0.191 

0.166 

Retraités 

0.287 

0.127 

0.399 

0.185 

0.121 

0.032 

0.173 

0.121 

0.168 

Autres inactifs 

0.012 

0.011 

0.00 L 

0.036 


0.043 

0.004 

0.015 

0.020 

Total 

■ 

1 

■ 

■ 

BU 


1 

■ 

IBII 
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On remarquera que la moyenne des profils-lignes (avec des poids correspondant aux 
effectifs marginaux des lignes) n’est autre que le profil marginal des colonnes : 



et que l’on a de même : 



«f. 

n 


6.5.2 L’écart à l’indépendance 


Lorsque tous les profils-lignes sont identiques on peut parler d’indépendance entre dC et 
puisque la connaissance de $£ne change pas les distributions conditionnelles de <2/. Il s’ensuit 
d’ailleurs que tous les profils-colonnes sont également identiques. 


n | .■ n-,: n r j 

On doit donc avoir — = — 1 - — . .. = — V/, ce qui entraîne 
n |. n 2 . n r . 

numérateurs et dénominateurs. 

nj.n.j 

L’indépendance empirique se traduit donc par «,-y =-. 


«i. 


•J 

— par sommation des 
n 


6.5.2.1 Le x 2 d’écart à l’indépendance et les autres mesures associées 

On adopte généralement la mesure suivante de liaison cl 2 notée aussi X 2 ou x 2 ( v °i r 
plus loin) : 


d 2 


= 22 



«i.n.j 


II 


On voit que d 1 est nul dans le cas de l’indépendance. Quelle est sa borne supérieure et 
dans quel cas est-elle atteinte ? Il faut pour cela utiliser le résultat suivant obtenu par déve¬ 
loppement du carré : 



d 1 — /7 

22- 

n ij 



_/= l j= 1 n 

i.n. 

Il j j 

Comme <1 on a : 


n fj < 

’hi 

11 ■} 


"i.n.j 

n.j 


22 


» n. j 


22 



= 2 


j=! 


S 


D’où : 
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D'où d 2 < n(s - 1). On pourrait montrer de même que d 1 ^ n(r — 1). On a donc : 


— < inf (s - 1 

; r - 1) 

n 



La borne étant atteinte dans le cas de la dépendance fonctionnelle. En effet 

d 2 = n(s - 1) si — = 1 V/, c’est-à-dire s’il n’existe qu’une case non nulle dans chaque ligne. 
M î* 

Ce cas est celui où °?J est fonctionnellement lié à SC : ce qui n'implique pas que dC soit lié 
fonctionnellement à J U comme on le voit sur la fleure 6.9. 



Figure 6.9 


Le cas de la dépendance fonctionnelle réciproque nécessite r = s : après permutation des 
lignes ou des colonnes le tableau de contingence peut alors se mettre sous forme diagonale. 

Divers coeffieients liés au d 2 ont été proposés pour obtenir une mesure comprise entre 0 
(indépendance) et 1 (liaison fonctionnelle). Citons : 

d 2 


- le coefficient de contingence de K. Pearson 

d 2 


n + d- 

1/2 


C; 


le coefficient de Tschuprow I 


le coefficient de Cramer 


W(r - l)(s - 1) 
d 2 


1/2 


K n inf {(s - 1) ; (r - 1)), 
d 2 ]n est usuellement noté qr. Pour l’exemple des vacances présenté plus haut on a : 

d 2 ~ 1989 C = 0.31 

7=0.12 V = 0.12 

n. n 

La construction du tableau des —(tableau d’indépendance) et sa comparaison avec le 

n 

tableau des n r est en général instructive : en particulier le calcul pour chaque case du terme : 


(n 


/ij./ij d 2 


n 
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appelé contribution au \ 2 permet de mettre en évidence les associations significatives entre 

rij n 

catégories des deux variables. Le signe de la différence n^- indique alors s’il y a 

association positive ou négative entre les catégories i de âf et j de (2/. 

Un tel calcul devrait être systématiquement associé à chaque calcul de x 2 - 

I n i 11 n 

On remarque que les marges des tableaux (n^) et I — : ——J étant les mêmes par construc¬ 
tion il suffit de calculer (r — l)(r — 1) (le degré de liberté) termes du tableau d’indépendan¬ 
ce et de déduire les autres par différence. 

Le tableau 6.6 donne pour chaque case l’effectif théorique et le x 2 correspondant. Comme 
il y a 72 cases, le x 2 moyen par case est de 27.6 : on a mis en grisé les cases où le x 2 dépas¬ 
se 60 : ce sont les cases où il existe une sur- ou une sous-représentation importante par rap¬ 
port à une répartition « au hasard ». 

Tableau 6.6 



Hôte! 

Location 

Rsec 

Rppa 

Rspa 

Tente 

Caravane 

AJ 

VillageV 

Agriculteurs 

33.35 

1.75 

39.2 

1.55 

21.99 

3.67 

79.25 

5.18 

23.46 

1.78 

9.8 

26.77 

14.33 

7.45 

4.92 

3.38 

8.7 

12.2 

Artisans, 

commerçants, 

chefs 

d’entreprise 

161.79 

20.95 

190.14 

25.66 

10.67 

11.93 

384.47 

19 

113.8 

0.34 

47.55 

0.65 

69.51 

0.44 

23.87 

5.19 

42.2 

4.13 

Cadres et 
professions 
inteliectueiles 
supérieures 

617.2 

7.45 

725.8 

3.39 

406.93 

4.56 

1466.72 

34.43 

434.15 

170.22 

181.4 

9.91 

265.18 

77.31 

91.05 

0.88 

160.99 

5.96 

Professions 

intermédiaires 

537.44 

5.12 

631.64 

0.09 

354.34 

10.97 

1277.18 

0.58 


157.96 

6.10 

230.91 

7.67 

79.29 

1.61 

140.18 

19.9 

Employés 

278.01 

27.86 

326.75 

1.95 

183.3 

73.79 

660.68 

35.12 

195.56 

5.42 

81.71 

1.3 

m 

41.02 

1.55 

75.52 

0.00 

Ouvriers 

435.4 

102.64 

511.72 

12.28 

■ 



127.97 

76.63 

187.07 

75.6 

64.23 

1.48 

113.57 

0.00 

Retraités 

511.18 

115.34 

600.79 

.71.86 

337.03 

373.86 

1214.79 

2.65 

359.68 

51.88 




133.34 

2.52 

Autres inactifs 




■ 


B 



B 


L’analyse des correspondances étudiée plus loin permet une représentation graphique des 
écarts à l’indépendance : on y retrouvera ces phénomènes. 




























152 


6bbbD escription bidimensionnelle et mesures de liaison entre variables 


6.5.2.2 Cas des tableaux 2x2 

Si SC et & n’ont que deux modalités chacune le tableau de contingence (tableau 6.7) n’a 
alors que 4 cases d’effectifs abccl. 


Tableau 6.7 


<2/ 

se 

! 

2 

î 

a 

b 

2 

c 

!_ I 

L d 


cl 2 peut alors s’exprimer par la formule : 

d 2 _ _ _ n(ad - bc) 1 _ 

(ci + b)(c + d)(ci + c)(b + ci) 

Si l’on calcule le coefficient de corrélation linéaire entre SC et % en attribuant des valeurs 
arbitraires à leurs catégories (par exemple 1 et 2 mais toutes les quantifications sont ici 
équivalentes) on montre que çr = r 1 . 

Remarquons que dans le cas des variables dichotomiques la non corrélation entraîne 
l’indépendance. 

6.5.2.3 Caractère significatif de l’écart à l’indépendance 

A partir de quelle valeur peut-on considérer que la liaison est significative ? En anticipant 
sur la théorie des tests exposée au chapitre 14 voici la démarche ; si les n observations étaient 
prélevées dans une population où SC et <2/sont indépendantes (p,j = Pi.p.j) quelles seraient les 
valeurs probables de ci 2 ? 

En s’appuyant sur les résultats du chapitre 4 paragraphe 4.4. on montre qu’alors d 2 est une 
réalisation d’une variable aléatoire D 2 suivant approximativement une loi xîv-nn- 1 » ’> en effet 

les n a - sont liés par (r — i)(,r - 1) relations linéaires puisque les marges sont 

n 

71 / 

communes aux deux tableaux (ou encore en d’autres termes puisqu on estime les p, par — 

n \ 11 

et les p j par —4 , 
n J 

Il suffit alors de se fixer un risque d’erreur a, c’est-à-dire une valeur qui, s’il y avait 
indépendance, n’aurait qu’une probabilité faible d'être dépassée (on prend usuellement 
a = 5 % ou I %). 

On rejettera donc l’hypothèse d’indépendance si d 2 est supérieur à la valeur critique qu’u¬ 
ne variable .v ( 2 r _ )j(v _ n a une probabilité a de dépasser. 
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Ainsi sur l’exemple : le degré de liberté du x 2 est (9 - 1 )(8 — 1) = 56. La valeur de cf est 
très élevée : d 2 = 1989. 

La valeur critique à 1 % d’un X 56 est 83.5. 

On doit donc rejeter l’hypothèse d’indépendance entre catégorie professionnelle et mode 
d’hébergement. 

Pour les tableaux 2 X 2 où le degré de liberté vaut 1 on recommande généralement 
d’effectuer la correction de Yates : 


II 

\od - bc\ ~ ^ 

2 

(a + b)(a + c)(b + d)(c + d) 


L’espérance d’un x 2 étant égale à son degré de liberté on voit que d 2 est d’autant plus 
grand que le nombre de catégories des deux variables est élevé. On ne peut donc comparer 
- des d 2 correspondant à des tableaux de tailles différentes pour une même valeur de n : un d 2 
de 4 pour un tableau 2 X 4 ne révèle pas une dépendance plus forte qu’un d 2 de 2.7 pour un 
tableau 2 X 2 bien au contraire : afin de comparer ce qui est comparable et de s’affranchir 
du problème des degrés de liberté il vaut mieux utiliser comme indice de liaison la probabi¬ 
lité P(x 2 < d 2 ). On trouve ainsi : 

P(XT < 2.7) = 0.9 et P ( x 5 < 4) = 0.75 

6.5.2.4 Autres mesures de dépendance 

Les indices dérivés du x 2 sont loin d’être les seules mesures de dépendance utilisables, 
elles ont d’ailleurs été souvent critiquées. La littérature statistique abonde en la matière et le 
problème est d’ailleurs celui du trop grand nombre d’indices proposés. On se reportera 
utilement aux ouvrages de Goodman et Kruskal et de Marcotorchino (1979). 

Signalons toutefois pour son intérêt théorique le G 2 ou khi-deux de vraisemblance : 


G 2 


222»,jlnf 

' j 

\ 


«IJ \ 

«/■ «.j 

n 


qui sous l’hypothèse d’indépendance suit une loi x^-du-d- 

6.5.3 Un indice non symétrique de dépendance : 
le T 5 de Goodman et Kruskal 


T M-/.r ~ 
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Cet indice résulte du raisonnement suivant : si l’on ignore SC, la probabilité (estimée) 

qu’une observation appartienne à la catégorie j de H>J est —^ : en affectant aléatoirement cette 

n : 11 

observation selon les probabilités — on a alors une proportion estimée de classements 

n 

corrects égale a ^ 
j 

Si l’on connaît la catégorie i de SC l’affectation se fait alors selon les fréquences condition¬ 
nelles ~ d’où une proportion estimée de classements corrects égale à Y Y 

n i. ,■ j iij. n 

Le t de Goodman et Kruskal mesure donc le taux de décroissance du pourcentage de 
prédictions incorrectes. 

On a par définition O^T/,^ 1 avec — 0 dans le cas de l’indépendance et t /( — 1 pour 
la liaison fonctionnelle. 

En introduisant les tableaux de variables indicatrices X, et X 2 associées aux deux varia¬ 
bles SC et on trouve : 

Trace (X' 2 A?X 2 ) 

Trace V 22 

où A® est le projecteur sur l’espace des combinaisons linéaires de moyenne nulle des indi¬ 
catrices de X[. 

t n’est autre que le coefficient de redondance R 2 (X 2 : X ( ) de Stewart et Love (voir 
chapitre 8). 

6.5.4 Le kappa de Cohen 

Ce coefficient est destiné à mesurer l’accord entre deux variables qualitatives ayant les 
mêmes modalités dans le contexte suivant : n unités statistiques sont réparties selon p caté¬ 
gories par deux observateurs. Si les deux observateurs concordent parfaitement, le tableau de 
contingence doit être diagonal : seuls les effectifs ;/„■ sont non-nuls. 

1 £ 

La proportion d’accords observés est P 0 = - Yn ih 

”/=i 

Si les deux variables étaient indépendantes la probabilité d’être dans l’une quelconque des 
/’ 1 p 

cases diagonales serait ^/>,-./?.,■ que l’on estime par P e = — 2 ’h. n .i appelé pourcentage 
d’accords aléatoires. / = l ,J 1=1 

Le coefficient kappa s’écrit alors : 



kappa est compris entre —1 et +1 (accord maximal). 









L’analyse en 

composantes 

principales 


Dans la plupart des applications on observe non pas une variable par individu, mais un 
nombre p souvent élevé. L’étude séparée de chacune de ces variables et celles des couples 
selon les techniques exposées précédemment est une phase indispensable dans le proces¬ 
sus de dépouillement des données mais tout à fait insuffisante. 

Il faut donc analyser les données en tenant compte de leur caractère multidimensionnel ; 
l’analyse en composantes principales est alors une méthode particulièrement puissante pour 
explorer la structure de telles données. C’est également la « mère » de la plupart des métho¬ 
des descriptives multidimensionnelles. 


7. S TABLEAUX DE DONNÉES, RÉSUMÉS NUMÉRIQUES 
ET ESPACES ASSOCIÉS 


7.1.1 Les données et leurs caractéristiques 

7.LI.I Le tableau des données 


Les observations de p variables sur n individus sont rassemblées en un tableau rectangulaire 
X à n lignes et p colonnes : 


1 

2 

X - i 


12... j 


.A' 


x] est la valeur prise par la variable n°j sur le i cl,lc individu. 
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Dans une optique purement descriptive on identifiera une variable à la colonne de X 
correspondante : une variable n’est rien d’autre que la liste des n valeurs qu’elle prend sur 
les n individus : 




x 


j — 


-Y 


il 


On identifiera de même l’individu i au vecteur e, à p composantes : 


e; = U,!....y?) 


7. 1.1.2 Poids et centre de gravité 

Si les données ont été recueillies à la suite d’un tirage aléatoire à probabilités égales, les 
n individus ont tous même importance, l/n, dans le calcul des caractéristiques de l’échanti¬ 
llon. U n’en est pas toujours ainsi et il est utile pour certaines applications de travailler avec 
des poids p, éventuellement différents d’un individu à l’autre (échantillons redressés ; 
données regroupées . . . ). 

Ces poids, qui sont des nombres positifs de somme 1 comparables à des fréquences, sont 
regroupés dans une matrice diagonale D de taille n : 


P) 


Pi 


D = 


0 


0 Pn\ 


Dans le cas le plus usuel de poids égaux, D = - I. 

n 

Le vecteur g des moyennes arithmétiques de chaque variable g' = (x 1 ; x 2 ;. . x 1 ’) 

définit le point moyen, ou centre de gravité du nuage. 

On a g — X'Dl où 1 désigne le vecteur de R' 1 dont toutes les composantes sont égales à L 
Le tableau Y tel que yj = x] — x j est le tableau centré associé à X. 

On a Y = X — lg' = (I - 11D)X. 

7 .1.1.3 Matrice de variance-covariance et matrice de corrélation 

La formule établie au chapitre précédent avec des poids égaux à 1 jn se généralise comme 
suit : 


Y = X'DX - gg' = Y'DY 
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On a également : X'DX = 2P/ e / e / 

i=i 


Cette dernière formule est utile pour les calculs numériques car elle ne suppose pas la 
mise en mémoire du tableau X mais seulement la lecture successive des données. 

Si Ton note D ]A la matrice diagonale des inverses des écarts-types : 


i Ai o 


D|/. v — 


o iA p J 


et D ia : la matrice diagonale des inverses des variances, le tableau des données centrées et 
réduites Z tel que : 


est donc : Z = YD 1A 

La matrice regroupant tous les coefficients de corrélation linéaire entre les p variables 
prises deux à deux est notée R : 


R 


'/< i 


Rappelons que R = D )A VD| A = Z'DZ. 

R est la matrice de variance-covariance des données centrées et réduites et résume la 
structure des dépendances linéaires entre les p variables prise 2 à 2. 


7 .1.1.4 Données actives et supplémentaires 

Le tableau X ne représente souvent qu’une partie de l’information disponible, et cela pour 
diverses raisons : on ne s’intéresse qu’aux liaisons entre certaines variables, les variables 
qualitatives sont par nature exclues de l’analyse etc. Les variables disponibles se partagent 
donc en deux ensembles : les variables actives qui serviront au calcul des axes principaux et 
les variables supplémentaires, appelées également variables illustratives qui seront reliées 
a posteriori aux résultats de l’ACP. 

On peut également n’utiliser qu’une partie des individus, soit pour valider les résultats, 
soit parce que certains n’auront leur données disponibles qu’ultérieurement, ou parce que 
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leurs données sont suspectes. Mettre des individus en supplémentaire revient à leur attribuer 
un poids nul. 


Variables Variables 

actives supplémentaires 


Individus 

actifs 


Individus 

supplémentaires 


7.1.2 L’espace des Individus 

Chaque individu étant un point défini par p coordonnées est considéré comme un élément 
d’un espace vectoriel F appelé l’espace des individus. L’ensemble des n individus est alors 
un « nuage » de points dans F et g en est le centre de gravité. 

L’espace F est muni d'une structure euclidienne afin de pouvoir définir des distances entre 
individus. 

7.1.2.1 Le rôle de la métrique 

Comment mesurer la distance entre deux individus ? Cette question primordiale doit être 
résolue avant toute étude statistique car les résultats obtenus en dépendent dans une large 
mesure. 

En physique, la distance entre deux points de l'espace se calcule facilement par la formule 
de Pythagore : le carré de la distance est la somme des carrés des différences des coordon¬ 
nées, car les dimensions sont de même nature : ce sont des longueurs que l’on mesure avec 
la même unité : 

d 2 = (.v* - .v;) 2 + (,v, - a,) 2 + • ■ • 

Il n’en est pas de même en statistique où chaque dimension correspond à un caractère qui 
s’exprime avec son unité particulière : comment calculer la distance entre deux individus 
décrits par les trois caractères : âge, salaire, nombre d’enfants ? 

La formule de Pythagore est alors aussi arbitraire qu’une autre. Si l’on veut donner 
des importances différentes à chaque caractère, pourquoi ne pas prendre une formule 
du type : 

d 2 ~ ct { (x\ ~ -fi) 2 + a 2 (x] — a?) 2 + • • • + a p (x l [ — x' 2) 2 
ce qui revient à multiplier par chaque caractère (on prendra bien sûr des eu positifs). 



Pi 


P2 


Pn 


Matrice des 
poids 
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De plus, la formule de Pythagore n’est valable que si les axes sont perpendiculaires, ce 
que l’on conçoit aisément dans l’espace physique. Mais en statistique ce n’est que par pure 
convention que l’on représente les caractères par des axes perpendiculaires : on aurait pu tout 
aussi bien prendre des axes obliques. 

On utilisera donc la formulation générale suivante : la distance entre deux individus e,- et e ; - 
est définie par la forme quadratique : 

d 2 (e,- ; e ; ) = (e, - e/M(e, - e 7 ) 

où M est une matrice symétrique de taille p définie positive. L’espace des individus est donc 
muni du produit scalaire : (e,- ; e 7 ) = e'-Me, 

En théorie, le choix de la matrice M dépend de f utilisateur qui seul peut préciser la 
métrique adéquate. En pratique les métriques usuelles en Analyse en Composantes 
Principales (ACP) sont en nombre réduit : a part la métrique M = I qui revient à utiliser le 
produit scalaire usuel, la métrique la plus utilisée (et qui est souvent l’option par défaut des 
logiciels) est la métrique diagonale des inverses des variances : 

0 " 

1AI 


L 0 Us 2 P j 

ce qui revient à diviser chaque caractère par son écart-type : entre autres avantages, la dis¬ 
tance entre deux individus ne dépend plus des unités de mesure puisque les nombres x\/sj 
sont sans dimension, ce qui est très utile lorsque les variables ne s’expriment pas avec les 
mêmes unités. 

Surtout, cette métrique donne a chaque caractère la même importance quelle que soit sa 
dispersion ; l’utilisation de M = I conduirait à privilégier les variables les plus dispersées, 
pour lesquelles les différences entre individus sont les plus fortes, et à négliger les différen¬ 
ces entre les autres variables. La métrique D 1/y : rétablit alors l’équilibre entre les variables en 
donnant à toutes la variance 1. 

Nous avons vu qu’utiliser une métrique diagonale : 


M = D 


1 /.V“ 


iAi 




eu 


a 


a 


p J 


D, 
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revient à multiplier les caractères par Vîq et utiliser ensuite la métrique usuelle M = I. 
Ce résultat se généralise à une métrique M quelconque de la manière suivante : 

On sait que toute matrice symétrique positive M peut s’écrire M = T'T. Le produit 
scalaire entre deux individus avec la métrique M peut donc s’écrire : 

(e, ; e 2 ) — e', Me 2 = ej T'Te 2 
= (Te 2 )'Te, 

Tout se passe donc comme si l’on utilisait la métrique I sur des données transformées, 
c’est-à-dire sur le tableau XT'. 

7.1.2.2 L’inertie 

On appelle inertie totale du nuage de points la moyenne pondérée des carrés des distances 
des points au centre de gravité : 

4 = Sa-(C/ - g)'M(e f - g) = 2 a De, - g|| 2 

i= î / 

L’inertie en un point a quelconque est définie par : 

4 = SA(e,- - a)'M(ei - a) 

f 

On a la relation de Huyghens : 

4 = 4 + (B “ a)'M(g - a) = 4 + (|g - a|| 2 
Si g = 0 : 4 = XAe/Me, 

i=i 

Par ailleurs, on démontre aisément que l’inertie totale vérifie la relation : 

11 g = 2 ŸPiPMi ~ ej)'M(e, - e,-) = X S AA II e / ~ e j II 2 

i= 17 =l i=!7=l 

soit la moyenne des carrés de toutes les distances entre les n individus. 

L’inertie totale est la trace de la matrice MV (ou VM) : 

1 7^ = Trace MV = Trace VM j 

En effet, /?,e'Me,- étant un scalaire, grâce a la commutativité sous la trace : 

— Trace |^ e iA ,e i 
= Trace MX'DX = Trace MV 

- si M = I l’inertie est égale à la somme des variances des p variables ; 

- si M = D 1/r j : Trace MV = Trace (D| /t :V) = Trace (D )/v VD| /t ), ce qui est égal à 
Trace R = p. L’inertie est donc égale au nombre de variables et ne dépend pas de 
leurs valeurs. 


/ g == Trace f XAe'iMe, 
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7 . f .3 L’espace des variables 

Chaque variable x j est en fait une liste de n valeurs numériques : on la considère comme 
un vecteur x j d’un espace E à n dimensions appelé espace des variables. 


7 .1.3.1 La métrique des poids 

Pour étudier la proximité des variables entre elles il faut munir cet espace d’une métrique, 
c’est-à-dire trouver une matrice d’ordre n définie positive symétrique. Ici il n’y a pas 
d’hésitation comme pour l’espace des individus et le choix se porte sur la matrice diagonale 
des poids D pour les raisons suivantes : „ 

- Le produit scalaire de deux variables x J et x k qui vaut x' 7 Dx A = n'est autre 

que la covariance s jk si les deux variables sont centrées. 1=1 

- La norme d’une variable || x J || n est alors 11 x J 11 5 = sj ; en d’autres termes la « lon¬ 
gueur » d’une variable est égale à son écart-type. 

- L’angle entre deux variables centrées est donné par : 


COS0 'j k = 


M 11*1 


S j S k 


Le cosinus de l’angle entre deux variables centrées n’est autre que leur coefficient de 
corrélation linéaire (chapitre 6 ). 

Si dans l’espace des individus on s’intéresse aux distances entre points, dans l’espace des 
variables on s’intéressera plutôt aux angles en raison de la propriété précédente. 


7. 1.3.2 Variables engendrées par un tableau de données 

A une variable x J on peut associer un axe de l’espace des individus E et un vecteur de 
l’espace des variables E. 

On peut également déduire de x 1 , x 2 , . . ., x p de nouvelles variables par combinaison 
linéaire, ce qui revient à projeter les individus sur de nouveaux axes de F. 

Considérons un axe A de l’espace des individus engendré par un vecteur unitaire a 
(c’est-à-dire de M-norme 1) et projetons les individus sur cet axe (projection M-orthogonale) 
(% 7 . 1 ). 



Figure 7.1 
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La liste des coordonnées c\ des individus sur A forme une nouvelle variable ou composante, c. 
Comme c, = a'Me, = e' Ma = (a ; e,) M on a : 

= XMa = Xu = 

j= i | 


en posant u = Ma. 

A la variable c sont donc associés trois êtres mathématiques : 

- un axe A de F de vecteur unitaire a ; 

- un vecteur c de F espace des variables ; 
une forme linéaire u appelée facteur. 

L'ensemble des variables c que Ton peut engendrer par combinaison linéaire des 
vecteurs-colonnes de X forme un sous-espace vectoriel de F de dimension égale (ou infé¬ 
rieure) à p. 

Remarquons que si a appartient à l’espace des individus F, u appartient à son dual F ;|: , et 
que si a est M-normé à 1, u est M _1 normé à 1 : 

a'Ma = u'M H u car u = Ma ==> a = M -I u 
F :|: est donc muni de la métrique M" 1 . 

(Lorsque M = I ces distinctions disparaissent et on peut identifier totalement axes et 
facteurs). 

La variance de c vaut alors : 

^(c) - ~si ~ u'Vu 


En effet : c'Dc = (Xu)'D(Xu) - u'X'DXu 


7.2 L’ANALYSE 

7.2.1 Projection des individus sur un sous-espace 

Le principe de la méthode est d’obtenir une représentation approchée du nuage des n indi¬ 
vidus dans un sous-espace de dimension faible. Ceci s’effectue par projection ainsi que 
l’illustre la figure 7.2. 

Le choix de l’espace de projection s’effectue selon le critère suivant qui revient à défor¬ 
mer le moins possible les distances en projection : le sous-espace de dimension k recherché 
est tel que la moyenne des carrés des distances entre projections soit la plus grande possible. 
(En effet, en projection les distances ne peuvent que diminuer). En d’autres termes il faut que 
l’inertie du nuage projeté sur le sous-espace F k soit maximale. 
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Soit P l’opérateur de projection M-orthogonale sur F k : P est tel que P 2 = P et P'M = MP. 

Le nuage projeté est alors associé au tableau de données XP\ car chaque individu e, 
(ou ligne de X) se projette sur F k selon un vecteur colonne Pe ( ou un vecteur ligne e,P' 
(fig. 7.3). 



La matrice de variance du tableau XP' est pour des variables centrées : 

(XP')'D(XP') = PVP' 

L’inertie du nuage projeté vaut donc : Trace (PVP'M). 

Par des opérations élémentaires on en déduit : 

Trace (PVP'M) = Trace (PVMP) car P'M = MP 

= Trace (VMP 2 ) car Trace AB = Trace BÀ 
= Trace (VMP) car P est idempotent 

Le problème est donc de trouver P, projecteur M-orthogonal de rang k maximisant 
Trace (VMP) ce qui déterminera donc F k . 
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Si F et G sont deux sous-espaces orthogonaux alors : 

A ® g = b 1 g 

Il suffit de remarquer que le projecteur associé à la somme directe de deux sous-espaces 
M-orthogonaux est la somme des projecteurs associés à chacun des espaces. 

De ce résultat on déduit le théorème fondamental suivant : 

Théorème 

Soit F k un sous-espace portant l’inertie maximale , alors le sous-espace de dimension 
k -f 1 portant l'inertie maximale est la somme directe de F k et du sous-espace 
de dimension I M -orthogonal a F\ portant l'inertie maximale : Les solutions sont 
« emboîtées ». 


sa Démonstration : Soit E k , un sous-espace de dimension (•+ 1. 

Comme dim E k , = k + 1 et dim F k = n — k , on a : 

dim(F, + 1 n Ft) ^ 1 

car : dim E k+l + dim F£- = n + 1 > n 

Soit b un vecteur appartenant à E k+i Cl F k . 

Posons E k+[ = b © G où G est le supplémentaire M-orthogonal de b dans E kk] . G est 
donc de dimension k et F = F k © b. 

On a : At+i = Ai + 1g 

If = 1f-\ Ai 

Comme F k était le sous-espace de dimension k portant l’inertie maximale 1g — 1fb donc 
h+i — A. + hb c’est-à-dire /*+ ( < I r et ceci quel que soit £ É+1 . 

Le maximum de l’inertie est donc réalisé pour l’espace F = b © F k et b doit être tel que 
A, soit maximal. 

Pour obtenir F k on pourra donc procéder de proche en proche en cherchant d’abord le sous- 
espace de dimension 1 d’inertie maximale, puis le sous-espace de dimension 1 M-orthogonal 
au précédent d’inertie maximale, etc. m 



7.2.2 Éléments principaux 
7.2.2.1 Axes principaux 

Nous devons chercher la droite de IR 71 passant par g maximisant l’inertie du nuage projeté 
sur cette droite. 
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Soit a un vecteur porté par cette droite ; le projecteur M-orthogonal sur la droite est 
alors : 

P = a(a'Ma) -l a'M 

L’inertie du nuage projeté sur cette droite vaut, d’après ce qui précède : 


Trace VMP = Trace VMa(a'Ma) ’a'M 


1 

a'Ma 


Trace VMaa'M = 


Trace a'MVMa 
a'Ma 


a'MVMa 

a'Ma 


puisque a'MVMa est un scalaire. 


La matrice MVM est appelée matrice d’inertie du nuage ; elle définit la forme 
quadratique d’inertie qui, à tout vecteur a de M-norme 1, associe l’inertie projetée sur l’axe 
défini par a. La matrice d’inertie ne se confond avec la matrice de variance-covariance que 


si M = I. 

Pour obtenir le maximum de 
par rapport à a : 


a'MVMa . 
a'Ma 


suffit d’annuler la dérivée de cette expression 


d’où : 


d_ /a'MVMa \ _ (a'Ma)2MVMa - (a'MVMa)2Ma 
da V a'Ma / (a'Ma) 2 


MVMa = 


/ a'MVMa 
\ a'Ma 


Ma 


soit : 


VMa = Xa 


car M est régulière ; donc a est vecteur propre de VM. S’il en est ainsi, le critère a'MVMa 
vaut Xa'Ma = X. Il faut donc que X soit la plus grande valeur propre de VM. 

La matrice VM étant M-symétrique possède des vecteurs propres M-orthogonaux deux 
à deux. 

D’où le résultat suivant : 


Théorème 

Le sous-espace F k de dimension k est engendré par les k vecteurs propres de VM 
associés aux k plus grandes valeurs propres. 

On appelle axes principaux d’inertie les vecteurs propres de VM, M-normés à 1. Ils sont 
au nombre de p. 

Un calcul élémentaire montre que les axes principaux sont aussi V -1 orthogonaux ; on 
montre réciproquement que les axes principaux sont le seul système de vecteurs à la fois 
M et V -1 -orthogonaux. 
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7.2.2.2 Facteurs principaux 


! 


A l’axe a est associée la l'orme linéaire u coordonnée M-orthogonale sur l’axe défini para 
(fig. 7.4). § 



u est un élément de (W)* (dual de l'espace des individus) qui définit une combinaison 
linéaire des variables descriptives x,, x 2 .x /r 

A l’axe principal a M-normé à 1 est associé le facteur principal u = Ma. 

Puisque a était vecteur-propre de VM : 

VMa = Xa => MVMa = XMa 


soit : 


MVu = Xu 


Les facteurs principaux sont les vecteurs propres M _1 -normés de MV. En effet, on a vu 
que si IR'’ est muni de la métrique M, son dual doit être muni de la métrique M“ l . 
Donc u'M _1 u = 1. 


Les facteurs principaux sont M 1 et V-orthogonaux. 


7.2.2.3 Composantes principales 

Ce sont les variables c,- (éléments de IR") définies par les facteurs principaux : 

c,- = Xu, 

c, est le vecteur renfermant les coordonnées des projections M-orthogonales des individus 
sur l’axe défini par a, avec a, unitaire. 

La variance d’une composante principale est égale à la valeur propre X : 

V(Ci) 

En effet V(c) = c'Dc = u'X'DXu = u'Vu or : 


donc : 


Vu = XM'u 
V(c) = Xu'M _l u = X 
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Les c-, sont les combinaisons linéaires de x,, x lt ..x p de variance maximale sous 
fa contrainte u'^'u, = f. 

Les composantes principales sont elles-mêmes vecteurs propres d’une matrice de taille n : 
En effet MVu = \u s’écrit MX'DXu = Xu ; en multipliant à gauche par X et en remplaçant 
Xu par c on a : 

XMX'Dc = Xcl 


La matrice XMX' notée W est la matrice dont le terme général w i} est le produit scalaire 
(e, ; cj) = e /Mej. 

D’où pour résumer : 


Facteurs principaux u 

MVu = Xu 

M “ 1 -orthonormés 

Axes principaux a 

VMa - Xa 

M-orthonormes 

Composantes principales c 

XMX'Dc = Xc 

D-orthogonales 

c — Xu 

u = Ma 



En pratique on calcule les u par diagonalisation de MV, puis on obtient les c = Xu, les 
axes principaux a n’ayant pas d’intérêt pratique. 

7.2.2.4 Formules de reconstitution 

Comme Xu, = cy en post-multipliant les deux membres par ujM -1 et en sommant sur j 
il vient : 


X5>XM-‘ = 

j j 

p 

Or 2 u j u yM~‘ = I car les u ; sont M~ l orthonormés, il suffit de vérifier que : 

j= i 


2 


7=1 


UyUyM ' 


u, = u, car UjM l u,- = 8 ÿ 


donc : 


X = icXM- 1 


7=1 


On peut ainsi reconstituer le tableau de données (centré) au moyen des composantes prin¬ 
cipales et facteurs principaux. On a également : 


MV = JX-UyUjM-' 

7=1 

VM = É\ A ajM 

i i 
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p P 

Lorsque M = I, X = ÿ) c,u) = 5) Vx,zyv/ où les z, sont les vecteurs propres de norme l de 

7=1 7=1 

XX' et les v ; les vecteurs propres de X'X de norme 1 (décomposition en valeurs singulières). 

Si l'on se contente de la somme des k premiers termes on obtient alors la meilleure 
approximation de X par une matrice de rang k au sens des moindres carrés (théorème 
d’Eckart-Young). 

7.2.3 Cas usuel!. La métrique D, /S i ou l’ACP 
sur données centrées-réduites 

Le choix de la métrique M est toujours délicat : seul l’utilisateur peut définir correctement 
la notion de distance entre individus. 

Prendre M = I revient à travailler sur la matrice V des variances-covariances, il n’y a pas 
alors de distinction entre axes principaux et facteurs principaux. Cependant, les résultats 
obtenus ne sont pas invariants si l’on change linéairement l’unité de mesure des variables. 
Les covariances sont multipliées par un facteur k, la variance par un facteur k 2 si l’on choi¬ 
sit une unité de mesure k fois plus petite pour une variable. 

Le choix de M = D, /v : est le plus communément fait, et a pour conséquence de rendre les 
distances entre individus invariantes par transformation linéaire séparée de chaque variable 
et de s’affranchir des unités de mesure ce qui est particulièrement intéressant lorsque les 
variables sont hétérogènes. 

On sait que l’usage de cette métrique est équivalent à la réduction des variables (division 
par l’écart-type). 

En pratique on travaillera donc sur le tableau centré-réduit Z associé à X et on utilisera la 
métrique M = I. 

Comme la matrice de variance-covariance des données centrées et réduites est la matri¬ 
ce de corrélation R, les facteurs principaux seront donc les vecteurs propres successifs de 
R rangés selon l’ordre décroissant des valeurs propres. Ru = Xu avec ||u|| 2 = 1 . 

La première composante principale c (et les autres sous la contrainte d’orthogonalité) 
est la combinaison linéaire des variables centrées et réduites ayant une variance maximale 

c = Zu. 

On a de plus la propriété suivante lorsqu’on travaille sur données centrées et réduites : 


Propriété 


c est la variable la plus liée aux x j au sens de la somme des carrés des corrélations : 

/> 

£/--(c ; x J ) est maximal 

7=1 


Cette propriété permet de généraliser l’ACP à d’autres méthodes et d’autres type de varia¬ 
bles en remplaçant le coefficient de corrélation par un indice adapté (principe d’association 
maximale, voir plus loin). 
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m Démonstration : Supposons les variables centrées : 


r 2 {c ; x 7 ) — r 2 (c ; z 7 ) où z 7 = — est la variable centrée-réduite associée à x 7 : 

Si 


[cov(c;z 7 )J 2 _ [c’Dz 7 ] 2 
V(c)V(z j ) V(c) 


X/- 2 (c ; z 7 ) 

7=1 


/ Zi 


V(c) r 


y(c , Dz- / )(z 7 'Dc) =-c'D Yz 7 z 7 ' De 

V(c) 


7=1 


\7=1 


or : 


donc : 


ÉzV)' = ZZ' 

7=1 


S r2 ( c ; x 0 


7=1 


c'DZZDc 

c'Dc 


le maximum de ce quotient est donc atteint pour c vecteur propre de ZZ'D associé à sa plus 
grande valeur propre : 

ZZ'Dc = Xc 

on en déduit que c est combinaison linéaire des z j donc que c — Zu ; 

ZZ'DZu = XZu 

Comme Z'DZ — R, il vient ZRu = XZu et si Z est de rang p : Ru = Xu. esa 


Pour résumer : l’ACP revient à remplacer les variables x 1 , x 2 , . . x 1 ’ qui sont corrélées, 

par de nouvelles variables, les composantes principales c ! , c 2 , ... combinaisons linéaires 
des x 7 non corrélées entre elles, de variance maximale et les plus liées en un certain sens 
aux x 7 : l’ACP est une méthode factorielle linéaire. 


7.3 INTERPRÉTATION DES RÉSULTATS 

L’ACP construit de nouvelles variables, artificielles et fournit des représentations 
graphiques permettant de visualiser les relations entre variables ainsi que l’existence éven¬ 
tuelle de groupes d'individus et de groupes de variables. 

L’interprétation des résultats est une phase délicate qui doit se faire en respectant une 
démarche dont les éléments sont les suivants. 

7.3.1 Qualité des représentations sur les plans principaux 

Le but de P ACP étant d’obtenir une représentation des individus dans un espace de 
dimension plus faible que p, la question se pose d’apprécier la perte d’information subie et 
de savoir combien de facteurs retenir. 
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7.3././ Le pourcentage d'inertie 

Le critère habituellement utilisé est celui du pourcentage d’inertie totale expliquée. 
On mesure la qualité de F k par : 

X, + X 2 + ■ • * + X A . _ X ( + Xt + • ■ ■ + 

/g X| + Xt +*•• + **•+ X^, 


Si par exemple 


Xi + Xt 


= 0.9 on conçoit clairement que le nuage de points est presque 


aplati sur un sous-espace à deux dimensions et qu’une représentation du nuage dans le plan 
des deux premiers axes principaux sera très satisfaisante. 


L’appréciation du pourcentage d’inertie doit faire intervenir le nombre de variables 
initiales : un % de 10 % n’a pas le même intérêt sur un tableau de 20 variables et sur un 
tableau de 100 variables. 


7.3.1.2 Mesures locales 

Le pourcentage d’inertie expliquée est un critère global qui doit être complété par d’autres 
considérations. 

Supposons que le plan F 2 des deux premiers axes porte une inertie totale importante 
(X ( + X 2 élevé) et que en projection sur ce plan deux individus soient très proches : 
la figure 7.5 montre que cette proximité peut être illusoire si les deux individus se trou¬ 
vent éloignés dans Fj. 



Il faut en fait envisager pour chaque individu e,- la qualité de sa représentation. Celle-ci 
est souvent définie par le cosinus de l’angle entre le plan principal et le vecteur e,. Si ce 
cosinus est grand, e,- est voisin du plan, on pourra alors examiner la position de sa projec¬ 
tion sur le plan par rapport à d’autres points ; si ce cosinus est faible on se gardera de toute 
conclusion. 

N.B. : Cette mesure du cosinus est d’autant meilleure que e,- est éloigné de g ; si e f est 
proche de g, la valeur du cosinus peut ne pas être significative. 
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Bien que moins utilisée, une mesure liée à la distance entre et F k semble préférable : en 
particulier la quantité : 


_ d(e, ; f,-) 

V/ B - X, - X 2 “ 


= (signe de c- + l ) 

- h 


qui compare la distance entre e,- et F k à la moyenne des carrés des distances de tous les indi¬ 
vidus à F k présente un intérêt statistique certain (on peut la comparer à une variable de 
Laplace-Gauss centrée-réduite). 


7 ,3.13 A propos de la représentation simultanée des individus 

et des variables en ACP 

Certains logiciels prévoient la possibilité de superposer la représentation des individus (plan 
principal) et celle des variables (cercle des corrélations) avec éventuellement des échelles 
différentes. 

Il convient d'être très prudent : en effet individus et variables sont des éléments d’espa¬ 
ces différents : si une variable définit une direction de l'espace des individus elle ne peut 
être résumée à un point et on ne peut interpréter une proximité entre points-variables 
et points-individus. 

Les deux représentations individus et variables se complètent mais ne peuvent être super¬ 
posées, sauf en utilisant la technique particulière du “biplot” (voir Gower et Hand, 1996). 


7.3.2 Choix de la dimension 

Le principal intérêt de l’ACP consistant à réduire la dimension de l’espace des individus 
le choix du nombre d’axes à retenir est un point essentiel qui n’a pas de solution rigoureuse. 
Remarquons tout d’abord que la réduction de dimension n’est possible que s’il y a redon¬ 
dance entre les variables x\ x 2 , . . ., x p : si celles-ci sont indépendantes, ce qui est un résul¬ 
tat fort intéressant en soi, l’ACP sera inefficace à réduire la dimension. 


7.3.2.1 Critères théoriques 

Ceux-ci consistent à déterminer si les valeurs propres sont significativement différentes 
entre elles à partir d’un certain rang : si la réponse est négative on conserve les premières 
valeurs propres. On fait pour cela l’hypothèse que les n individus proviennent d’un tirage 
aléatoire dans une population gaussienne où = k k+2 = ... = A.,,. Si cela est vrai la 
moyenne arithmétique a des k — p dernières valeurs propres et leur moyenne géométrique 
g doivent être peu différentes ; on admet que : 


c = 


2 p + 11 
6 


\p ~ k) In 



suit alors une loi du x 2 de degré de liberté —---^-— 

thèse d’égalité des k — p valeurs propres si c est trop grand. 


on rejettera l’hypo- 
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On peut également construire des intervalles de confiance pour les différentes valeurs 
propres en utilisant les formules de T. W. Anderson si n est grand : si A., est la Z 1011 ' 0 valeur 
propre de l’ACP, l’intervalle de confiance à 95 % est donné par : 


L 




A., exp 



(voir chapitre 13) 


Ces propriétés ne sont malheureusement utilisables que pour des matrices de variance 
dans le cas gaussien /7-dimensionnel. Elles ne s’appliquent pas pour les matrices de corré¬ 
lation ce qui est le cas le plus fréquent en pratique, et ne doivent être utilisées qu’à titre 
indicatif. 


73.2.2 Critères empiriques 

Ce sont en réalité les seuls applicables, le critère de Kaiser est le plus connu : 

Lorsqu’on travaille sur données centrées réduites on retient les composantes principales 
correspondant à des valeurs propres supérieures à 1 : en effet les composantes principales 
c étant des combinaisons linéaires des z j de variance maximale V(c) = A., seules les compo¬ 
santes de variance supérieure à celle des variables initiales présentent un intérêt. 

Cependant le seuil de 1 ne peut être considéré comme absolu : 1.1 est-il significativement 
supérieur à 1 ? 

Dans un travail récent (Karlis, Saporta, Spinakis, 2003) nous avons montré l’intérêt du 
critère suivant, inspiré par une approche de type « carte de contrôle » où on considère comme 
intéressantes les valeurs propres qui dépassent leur moyenne (qui vaut ici 1) de plus de deux 
écart-types. 

Comme : = p + 2S r 5 

/=l i=Fj 

et que l’espérance du carré du coefficient de corrélation entre deux variables indépendantes 
vaut 1 /(n — 1), on trouve que : 



= P 


i p(p- ■> 

n - 1 


la dispersion espérée des valeurs propres vaut alors : 


sf-ift,- u 2 ) 

\p/=i / 


p -1 
n - 1 


Nous proposons donc de ne retenir que les valeurs propres telles que : 



A. > 1 + 2‘ 


n - 1 
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On recommande également de détecter sur le diagramme de décroissance des valeurs 
propres l’existence d’un coude (voir figure 7.8) séparant les valeurs propres utiles de celles 
qui sont peu différentes entre elles et n’apportent pas d’information. Il faut noter ici que les 
critères formels basés sur les différences successives entre valeurs propres sont en général 
moins performants que l’inspection visuelle : nous ne les donnerons donc pas. 

Enfin il faut rappeler avec force que les critères du type « extraire au moins x % » de 
l’inertie souvent prônés par des praticiens, sont dénués de fondement et doivent être ban¬ 
nis, car on ne peut donner de seuil universel sans tenir compte de la taille du tableau, et de 
la force des corrélations entre variables. 

Aucun des critères présentés n’est absolu : l’interprétation des résultats d’une analyse 
relève aussi du métier du statisticien. 

7.3.3 interprétation « interne » 

7.3.3. / Corrélations « variables - facteurs » 

La méthode la plus naturelle pour donner une signification à une composante principale 
c est de la relier aux variables initiales x J en calculant les coefficients de corrélation linéaire 
/■(c ; x J ) et en s’intéressant aux plus forts coefficients en valeur absolue. 

Lorsque l’on choisit la métrique ce qui revient à travailler sur données centrées- 
réduites et donc à chercher les valeurs propres et vecteurs propres de R, le calcul de r(c ; x J ) 
est particulièrement simple : 

En effet : 


c'Dz j 

r (c ; x J ) — r (c : z J ) =- 

A 


comme V(c) = X. : 


r(c ; x J ) 


c'Dz J 

X 


or c = Zu où u, facteur principal associé à c, est vecteur propre de R associé à la valeur 
propre X. : 


r( c ; x j ) — u'Z'Dz J 


(zri'DZu 


(zri'DZ est la j cmc ligne de Z'DZ = R, donc (z J )'DZu est la composante de Ru. 
Comme Ru = X.u, il vient : 

r(c ; x J ) ~ a/Â i tj 


Ces calculs s’effectuent pour chaque composante principale. Pour un couple de compo¬ 
santes principales c 1 et c 2 par exemple on synthétise usuellement les corrélations sur une 
figure appelée « cercle des corrélations » où chaque variable x j est repérée par un point 
d’abscisse /•(c 1 ; x') et d’ordonnée /-(c 2 ; x ; ). 
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Ainsi la figure 7.6 montre une première composante principale très corrélée positive¬ 
ment avec les variables 1,2 et 3, anticorrélée avec les variables 4 et 5 et non corrélée avec 
6, 7 et 8. 



Par contre la deuxième composante principale oppose la variable n° 8 aux variables 6 et 7. 

On se gardera d’interpréter des proximités entre points variables, si ceux-ci ne sont pas 
proches de la circonférence. 

Dans le cas de la métrique Dc’est-à-dire, rappelons-le, de l’ACP sur données centrées 
réduites, le cercle des corrélations n’est pas seulement une représentation symbolique com¬ 
mode : c’est la projection de l’ensemble des variables centrées-réduites sur le sous-espace 
engendré par c 1 et c 2 . En effet les z J étant de variance un, sont situées sur la surface de la 
sphère unité de l’espace des variables (isomorphe à M") (fig. 7.7). Projetons les extrémités 
des vecteurs z j sur le sous-espace de dimension 2 engendré par c 1 et c 2 (qui sont orthogona¬ 
les) les projections tombent à l’intérieur du grand cercle intersection de la sphère avec le plan 
c' ; c 2 . La projection se faisant avec la métrique D de l’espace des variables, z se projette sur 
l’axe engendré par c 1 en un point d’abscisse cos (z j ; c') qui n’est autre que le coefficient de 
corrélation linéaire r(x J ; c 1 ). 



Figure 7.7 
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Le cercle de corrélation est donc, dans l’espace des variables, le pendant exact de la 
projection des individus sur le premier plan principal. 


p 

Comme \ k — ^r 2 (c k ;x j ) on appelle parfois contribution de la variable j à l’axe k le 

j= i 


rapport : 


/"( c k ; x j ) 




mais cette quantité ne présente que peu d’intérêt en ACP et n’apporte rien de plus que le 
coefficient de corrélation. 


7 .3.3.2 La place et l’importance des individus 

Dire que c 1 est très corrélée avec une variable x j signifie que les individus ayant une forte 
coordonnée positive sur l’axe 1 sont caractérisés par une valeur de x J nettement supérieure à la 
moyenne (rappelons que l’origine des axes principaux représente le centre de gravité du nuage). 

Inversement si les individus ne sont pas anonymes, ils aident à l’interprétation des axes 
principaux et des composantes principales : on recherchera par exemple les individus oppo¬ 
sés le long d’un axe. 

Il est très utile aussi de calculer pour chaque axe la contribution apportée par les divers 
individus à cet axe. Considérons la k' mK composante c k ; soit c ki la valeur de cette composante 
pour le i ,cmc individu. On a : 

/I 

1=1 

La contribution de l’individu / à la composante c k est définie par : 

Pi ^ ki 

K 

La considération des contributions, quand elles ne sont pas excessives, aide à l’interpré¬ 
tation des axes. 

Normalement, et ceci surtout pour les premières composantes, il n’est pas souhaitable 
qu’un individu ait une contribution excessive car cela serait un facteur d’instabilité, le fait de 
retirer cet individu modifiant profondément le résultat de l’analyse. Si ce cas se produisait il 
y aurait intérêt à effectuer l’analyse en éliminant cet individu puis en le mettant en élément 
supplémentaire, s’il ne s’agit pas d’une donnée erronée (erreur de saisie . . .) qui a été ainsi 
mise en évidence. 

Cette remarque est surtout valable lorsque les individus constituent un échantillon et ne 
présentent donc pas d’intérêt en eux-mêmes. 

Lorsque les poids des individus sont tous égaux a 1/n les contributions n’apportent pas 
plus d’information que les coordonnées. 

Lorsque n est grand, il est souvent possible de considérer que les coordonnées sur une com¬ 
posante principale (du moins pour les premières composantes) qui ont pour moyenne 0 et pour 
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C , 

variance la valeur propre, sont distribuées selon une loi de Laplace-Gauss. Alors — est distribué 
comme un x 2 à un degré de liberté et la contribution —- a une probabilité 0.05 de dépasser 

11 K 

3.84 /n. On pourra donc considérer qu’un individu a une contribution significative si elle 
dépasse 4 fois son poids. 


7.3.3.3 Effet (( taille » 

Lorsque toutes les variables sont corrélées positivement entre elles, la première com¬ 
posante principale définit un « facteur de taille ». 

On sait qu’une matrice symétrique ayant tous ses termes positifs admet un premier vecteur 
propre dont toutes les composantes sont de même signe (théorème de Frobenius) : si l’on les 
choisit positives la première composante principale est alors corrélée positivement avec toutes 
les variables et les individus sont rangés sur l’axe 1 par valeurs croissantes de l'ensemble des 
variables (en moyenne). Si de plus les corrélations entre variables sont toutes de même ordre 
la première composante principale est proportionnelle à la moyenne des variables initiales : 


La deuxième composante principale différencie alors des individus de « taille » semblable : 
on l’appelle facteur de « forme ». 

7.3.4 Interprétation externe : variables et individus 
supplémentaires, valeur^test 

Les interprétations fondées sur les remarques précédentes présentent le défaut d’être 
tautologiques : on explique les résultats à l’aide des données qui ont servi à les obtenir. 

On risque de prendre pour une propriété des données ce qui pourrait n’ être qu’un artefact 
dû à la méthode : il n’est pas étonnant par exemple de trouver de fortes corrélations entre la 
première composante principale c 1 et certaines variables puisque c 1 maximise : 

2r-(c ; \ j ) 

i= i 

On n’est donc pas sûr d’avoir découvert un phénomène significatif. 

Par contre si l’on trouve une forte corrélation entre une composante principale et une varia¬ 
ble qui n’a pas servi à l’analyse, le caractère probant de ce phénomène sera bien plus élevé. 
D’où la pratique courante de partager en deux groupes l’ensemble des variables : d’une part 
les variables « actives » qui servent à déterminer les axes principaux, d’autre part les variables 
« passives » ou supplémentaires que l'on relie a posteriori aux composantes principales. 

On distinguera le cas des variables numériques supplémentaires de celui des variables 
qualitatives supplémentaires. 

Les variables numériques supplémentaires peuvent être placées dans les cercles de corréla¬ 
tion : il suffit de calculer le coefficient de corrélation entre chaque variable supplémentaire 
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y et les composantes principales c l , c 2 .... On peut alors utiliser les résultats du chapitre 
précédent pour détecter une corrélation significative. 

Une variable qualitative supplémentaire correspond à la donnée d’une partition des n indi¬ 
vidus en k catégories : on peut faire apparaître par des symboles différents les individus de 
chaque catégorie sur les plans principaux. En général on se contente de représenter chaque 
catégorie par son centre de gravité : on peut alors mesurer au moyen du rapport de corréla¬ 
tion la liaison entre une variable qualitative supplémentaire et une composante principale et 
vérifier son caractère significatif au moyen du F de Fisher-Snedecor (voir chapitre 6). 


Cependant la pratique la plus efficace consiste à calculer ce que l’on appelle la valeur- 
test associée à chaque modalité ou catégorie supplémentaire qui mesure sur chaque axe 
la différence entre la moyenne des individus concernés et la moyenne générale (nulle 
par construction puisque les composantes principales sont centrées). Plus précisément il 
s’agit de la différence divisée par l’écart-type correspondant au raisonnement suivant (voir 
chapitre 12 et 20) : si les /i, individus de la catégorie i étudiée avaient été tirés au hasard avec 
probabilités égales parmi les n de l’ensemble étudié, la moyenne de leurs coordonnées sur 


K- n 


n 


- car le tirage 


l’axe n°k serait une variable aléatoire d’espérance nulle et de variance 

n — I 

est sans remise. La valeur-test associée à la coordonnée ci ik du centre de gravité est alors : 


Ojk 

jy. // - H; 
y n j n — 1 

En se référant à la loi de Laplace-Gauss, ce qui se justifie si /i, est assez grand, on déci¬ 
dera qu’une modalité occupe une position significativement différente de la moyenne géné¬ 
rale si en valeur absolue, la valeur-test dépasse 2 voire 3. 

On peut également ne pas faire participer à l’analyse une partie des individus (on calcule 
les corrélations sans eux) ce qui permettra de vérifier sur cet échantillon-test des hypothèses 
formulées après une ACP sur les individus actifs. Il est d’ailleurs immédiat de positionner de 
nouveaux individus sur les axes principaux puisqu’il suffit de calculer des combinaisons 
linéaires de leurs caractéristiques. 


7.4 EXEMPLE 

Les données concernent les caractéristiques de 18 véhicules (anciens...) et figurent dans 
le tableau 17.1 page 428. 

Pour l’analyse en composantes principales, les variables « finition » (qualitative) et « prix » 
ont été mises en éléments supplémentaires, il y a donc 6 variables actives. 

7.4.8 Valeurs propres 

Comme les variables sont exprimées avec des unités différentes, on effectue l’ACP sur 
données centrées réduites, ce qui conduit à chercher les valeurs et vecteurs propres de la 
matrice de corrélation R présentée en 6.1.2.3. 
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Les calculs ont été effectués avec le logiciel SPAD version 5.6 


DIAGRAMME DES 6 PREMIERES VALEURS PROPRES 


NUMERO 

VALEUR 

PROPRE 

POURCENTAGE 

POURCENTAGE 

CUMULE 


1 

4.4209 

73.68 

73.68 


2 

0.8561 

14.27 

87.95 


3 

0.3731 

6.22 

94.17 

***'*-’ 

4 

0.2139 

3.57 

97.73 


5 

0.0928 

1.55 

99.28 

”* 

6 

0.0433 

0.72 

100.00 

* 


L’application des critères de choix de dimension (§ 7.3.2) ne conduirait à retenir qu’une 
seule valeur propre, ce qui montre bien leurs limites. Nous conserverons deux dimensions 
représentant 88 % de l'inertie. Remarquons que les intervalles d’Anderson des valeurs pro¬ 
pres suivantes sont tous en dessous de 1. 


INTERVALL 

ES A 0.95 



NUMERO 

BORNE INFERIEURE 

VALEUR PROPRE 

BORNE SUPERIEURE 

1 

1.4488 

4.4209 

7.3929 

2 

0.2806 

0.8561 

1.4316 

3 

0.1223 

0.3731 

0.6239 

4 

0.0701 

0.2139 

0.3577 

5 

0.0304 

0.0928 

0.1552 


7.4.2 Interprétation des axes 

Le tableau suivant ainsi que le cercle des corrélations montrent un effet « taille » sur le 
premier axe qui va donc classer les individus selon leur taille. Le deuxième axe s’interprète 
aisément comme opposant les véhicules sportifs aux autres. 


VARIABLES 


CORRELATIONS 

VARIABLE 

-FACTEUR 


IDEM 

- LIBELLE COURT 

1 

2 

3 

4 

5 

Cyli 

- cylindrée 

0.89 

-0.11 

0.22 

-0.37 

-0.05 

Puis 

- puissance 

0.89 

-0.38 

0.11 

0.17 

0.09 

Long 

- longueur 

0.89 

0.38 

-0.04 

0.13 

-0.22 

Larg 

- largeur 

0.81 

0.41 

-0.37 

-0.10 

0.15 

Poid 

- poids 

0.91 

0.22 

0.30 

0.14 

0.09 

Vite 

- vitesse 

0.75 

-0.57 

-0.30 

0.03 

-0.06 

Prix 

- prix 

0.77 

-0.09 

0.13 

0.23 

0.16 
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La prise en compte des variables supplémentaires montre en outre que la première com¬ 
posante principale est liée à la qualité et au prix. 



7.4.3 Plan principal 

Le tableau suivant fournit les composantes principales et les indices associés. Les indi¬ 
vidus les plus influents sur Taxe 1 sont Renault-3 0-ts et toyota-corolla qui s’opposent 
par leur taille et sur l’axe 2 alfasud-ti-13 50 et alfetta-1.66 , véhicules sportifs 
italiens. 














00 

O 


INDIVIDUS 


COORDONNER 



CONTRIBUTIONS 


COS 

'MUS C/ 

JSRSÏÏ 


IDENTIFICATEUR 

P . REL 

DT STO 

i 

2 

3 

4 

5 

1 

- 

3 

4 

5 

1_ 

2 

3 


l 5 

ALFA3UD-TI-Î 350 

5 . b> (S 

8.23 

-2.14 

-1.79 

-0.57 

-0.20 

0.30 

5.7 

20.7 

4.9 

1.1 

5 4 4 

0.56 

0 .39 

0.04 

0.00 

0.01 

AUDI-1 OU-L 

L 3.56 

6.67 

1.56 

1.53 

-1.3?. 

0.2.1 

-0.15 

3 . 1 

15.1 

2 5.8 

1.2 

1.3 

0.37 

0.35 

0.26 

0.01 

0.00 

SIHCA-1307-GLS 

5.56 

2.16 

-1.12 

0.67 

— 0.4 G 

0.17 

0.38 

1 . 6 

3.0 

3 . i 

0.7 

B. 4 

0.58 

0.21 

0.10 

0.01 

0.07 

CiTRÜEM-GS-CLUB 

5.56 

6.78 

-2.57 

-0.11 

-0.15 

0.02 

-0.23 

8.3 

0.1 

0.3 

: o.o 

3.1 

0.90 

0.00 

0.00 

0.00 

0.01 

F1 AT 13 a -1G 0 OG r..s 

5.56 

1.17 

0.43 

-0.70 

0.19 

0.63 

-0.26 

0.2 

3.1 

0.6 

10.2 

4 ,2 

0.1 G 

0.41 

0.03 

0.34 

0.06 

LAHCTA-BETA-I J 0 0 

5.56 

1 . 13 

-0.30 

0.20 

-0.63 

Ü.5G 

0.4 5 

0.1 

0.2 

6. B 

8.0 

11.9 

0.08 

0.03 

0.40 

0.27 

0.17 

PEUGEOT- 5 0-1 

5.56 

1.51 

0.68 

0.93 

0 .2 G 

— 0.20 

— 0.21 

0. G 

5.6 

1,0 

1.1 

2.5 

0.31 

0.58 

0.04 

0.03 

0.03 

RENAULT-16-TL 

5.56 

5.64 

-1.95 

0.38 

0.6-2 

-0 . G3 

-0.29 

4,8 

6.2 

5.7 

10.3 

5.1 

0.67 

0.17 

0.07 

0.07 

0.02 

RENAULT-3 Q-TS 

5.56 

21 .79 

4.4 1 

-1.06 

0.59 

—0.35 

0.37 

24.4 

7.3 

5.2 

18.6 

fi . 4 

0.89 

0.05 

0.02 

0.03 

0.01 

TOYOTA-CORON LA 

5.56 

1 G . 2 9 

-3.99 

-0.24 

0.30 

-0.27 

— 0.28 

20.0 

0.4 

1.4 

1.8 

4.6 

0.98 

0.00 

0.01 

0.00 

0.00 

ALFETT.A-l.fi6 

5.56 

4.4 6 

0.44 

-1.91 

-0.02 

0.76 

-0.17 

0.2 

33.7 

0.0 

15.0 

1.7 

0.04 

0.U2 

0.00 

0.13 

0.01 

PRINCE,SS-1BOO-ML 

5.56 

1.95 

l. 02 

O. 84 

-0.2?. 

-0.30 

0.18 

1.3 

■î. 6 

0.7 

2.4 

2.0 

0.53 

0.36 

0.02 

0.05 

0.02. 

D .ATS UH - 2 0 0 L 

5.56 

11 .11 

2,9 c 1 , 

0.5G 

1.24 

U.77 

-0.05 

10.9 

2.0 

23.0 

15.5 

0.2 

0.73 

0.03 

0.14 

0.05 

0.00 

TAUNUS-3 0 0 0-GL 

5.56 

2 .4 5 

1.31 

— 0.49 

-0,28 

-0.58 

0.07 

2,2 

1.5 

1.2 

U. 8 

0.3 

0.70 

0. 1.0 

0.03 

0.14 

0. on 

RANCHO 

5.56 

1.96 

-0 . G9 

0.90 

0.63 

0.36 

0.2B 

0.6 

5.2 

5.9 

3,3 

8.5 

0.24 

0.41 

0.20 

0.07 

0.07 

MAZDA-9395 

5.56 

0.68 

0.39 

-0.36 

0.00 

-0.10 

-0.53 

0.2 

0.3 

0.1 

0.3 

16 . G 

0.22 

0.19 

0.01 

0.02 

0.41 

OPEL-REKOHD-I., 

5.56 

6 . OB 

2.29 

-0.10 

-0.30 

-0.24 

— 0.34 

G . 6 

0.1 

9.4. 

1 .5 

6.9 

0.86 

0.00 

Û . 10 

0.01 

0.03 

LADA-13 00 

5.56 

7 . y 2 

-2.7 1 

0.1 4 

0.57 

-0.10 

0.3 B 

9.2 

0.1 

4.9 

0.2 

B. 7 

0.93 

U .00 

0.04 

0.00 

Ü.02 
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Le plan principal donne la projection des 18 individus ainsi que les barycentres des moda¬ 
lités de la variable « Finition ». 


Facteur 2 - U.27 


1.S0 


0 


RENAULT-16-TL HANCHO 

° « 

SIMCA-1307-GLS 


tqyota-corolla 
-0.75 


LADA-1300 

a Finition-M 
.B...„. 

s 

CITHOEN-GS-CLUB 


LANCI A-BETA-1300 


ALFASUD-TL 1350, 


AUDI-100-L 

PEUGEOT-504 

s 

PRINCESS-1000-HL 


Finilion=TB 

.......M . 


DATSUU-200L 


OPEL-HEKOHD-L 


MAZDA-9295 « 

TAUNUS-2000-GL 

o 

Fl AT-132-1600GLS 


ALFETTA-1.66 


RENAULT-30-T! 


Fadeur 1 - 73.68% 


7.5 ANALYSE FACTORIELLE SURTABLEAUX 
DE DISTANCE ET DE DISSSMILARITÉS 

Ces méthodes (multidimensional scaling) ont le même objectif que P ACP : trouver une 
configuration de n individus dans un espace de faible dimension, mais les données de départ 

n(n — 1) 

sont différentes ; ici on ne connaît que les — - -distances, ou dissimilarités entre indi¬ 

vidus, et non les variables les décrivant. Le cas où l’on dispose d’une véritable distance eucli¬ 
dienne entre individus n’est qu’une version de F ACP, le cas de dissimilarités conduit à des 
techniques originales. 


7.5.1 Analyse d’un tableau de distances euclidiennes 

7.5.1.1 La solution classique 

Soit A le tableau n X n des carrés des distances entre points : 

djj = ci} et cl u = 0 

Si d est euclidienne, chaque individu peut être représenté dans un espace de dimension p 
(pour l’instant inconnue) par un point e tel que : 

djj = (e, - e y )'(e,- - e 7 ) 

On peut en effet toujours supposer M = I sinon on s’y ramène par la transformation T telle 
que M — T'T. Si l’on place l’origine au centre de gravité, les produits scalaires n> ( y = (e,- ; e 7 ) 
sont alors entièrement déterminés par les djj. 
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Supposons pj = Un V/ et posons dJ, 
du nuage. 


\_ 

n 


n 


d 1 ' 

7=1 


1 " 

- 5// 2 = 2/ OÙ / est l’inertie 
n ,= i 


On a alors la formule de Torgerson : 



d?j + d 1 -) 


En effet : 

àîj = ||e,|| 2 + |||| 2 - 2Wjj soitiv, 7 = -^(~dfj + ||e,|| 2 + ||ej 2 ) 

d’où : 

d-: “ ||e,|| 2 + - 2 Ile,II 2 car ]>>ÿ = < e « î II e /) = 0 

71 j j i 

car l’origine est au centre de gravité. 

On a donc dj = ||e ; || 2 + / et de même d 2 j = ||e y || 2 4- I d’où la formule par substitution. 

1 11 ' 

Matriciellement W = —AAA où A est l’opérateur de centrage A = I-: il y a donc 

2 n 

double centrage en ligne et en colonnes de A. 

( 1 

On sait que les vecteurs propres de WD ici - W 

V n 

nuage des n points. 

Connaissant uniquement les distances d i} , on peut donc calculer les composantes principa¬ 
les, et faire une représentation euclidienne de l’ensemble des points dans un espace de dimen¬ 
sion fixée, car les composantes principales ne sont autres que des listes de coordonnées sur 
une base orthogonale. La dimension de l’espace est alors égale au rang de W : on vérifiera 
que d est euclidienne si W a toutes ses valeurs propres positives ou nulles. Remarquons que 
rang W < n — 1 car n points sont dans un espace de dimension n — 1 au plus. 


sont les composantes principales du 


7.5. 1.2 Une transformation permettant de passer d*une distance 
non euclidienne à une distance euclidienne 

Si d n’est pas euclidienne, ce qui se produit quand W a des valeurs propres négatives la 
méthode de la constante additive permet d’en déduire une distance euclidienne. Il existe en 
effet une constante c\ telle que 8? = djj + c 2 avec 8, v = 0. soit euclidienne. 

La matrice W fi associée à 8 est alors telle que : 


W B = w (/ + w e 
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W, = —-A 


0 c 2 c 2 c 2 
c 2 0 

c 2 0 


A = —- A<r (11' - I)A 


IV c 2 A c 2 c 2 

comme A = I-, YV C = —— ((n - 1)1 - nA)A = ((/z - 1)A — /;A)A = —A 

ni 2 2 

car A 2 = A. 


Les vecteurs propres associés à des valeurs propres non nulles de W f/ sont centrés. Comme 
A est l’opérateur de centrage, ils sont vecteurs propres de YV t . avec pour valeur propre c 2 /2. 

Aux vecteurs propres de correspondent les vecteurs propres de W s avec pour valeurs 
propres \ + c 2 /2. Il suffit donc de prendre c 2 = 2|\„| où est la plus petite valeur propre 
de (ici négative) pour que S soit euclidienne. 


Remarquons que cette méthode permet également de transformer une dissimilarité (pour 
laquelle l’inégalité triangulaire n’est pas vérifiée) directement en une distance euclidienne 
mais sans doute au prix d’une déformation importante des données. 


La méthode précédente (la plus connue) ajoute donc une constante aux carrés des distan¬ 
ces. F. Cailliez a résolu en 1983 le problème consistant a ajouter la plus petite constante a 
la distance d’origine : cette constante est la plus grande valeur propre de la matrice carrée 


suivante de taille 2/7 



2W, 

-4W./7/ 


où Wifj est la matrice de Tùrgerson où les carrés sont 


remplacés par les distances. 


7.5.2 Le « MDS » 

7.5.2. I Analyse d’un tableau de dissimifarités 

Lorsque les dy ne sont pas des distances mais seulement des mesures de proximité où 
l’information est de nature ordinale, il est souvent préférable d’utiliser des méthodes semi- 
métriques de positionnement (muftidimensional scaling ) qui consistent à rechercher une 
configuration de n points dans un espace euclidien de dimension Fixée telle que les distances 
8 entre ces points respectent au mieux l’ordre défini par d : si dy < d kh on cherche à avoir 
h < 8 U pour le maximum de points. 

Dans l’algorithme MDSCAL de J. B. Kruskal, on cherche à minimiser la quantité suivante 
appelée stress : 


min 

C„ (V/ 


E(S V - 

2(8,j)- 


où M est une application monotone croissante. 

La méthode est alors la suivante : on part d’une configuration euclidienne obtenue par 
exemple à l’aide de la formule de Torgerson avec constante additive et on cherche alors 
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les M(d;j) tels que ]£(S ; y — Mid^)) 2 soit minimum. Ce problème admet une solution unique 
i.j 

(régression monotone) et on en déduit une valeur du stress. On modifie ensuite la configu¬ 
ration au moyen de petits déplacements des points selon une méthode de gradient pour 
diminuer le stress. On repasse ensuite à la phase de régression monotone, etc., jusqu’à 
convergence. 

Une différence fondamentale avec l’analyse d’un tableau de distance euclidienne par ACP 
est que la dimension de l’espace de représentation doit être fixée à l’avance et que les solu¬ 
tions ne sont pas emboîtées : la meilleure représentation à trois dimensions ne se déduit pas 
de la meilleure représentation à deux dimensions en rajoutant un troisième axe. Par ailleurs 
les distances dans l’analyse de Torgerson sont toujours approximées “par en dessous” car la 
projection raccourcit les distances. La solution du MDS est définie à une transformation 
orthogonale près (rotation, symétrie, etc.). 


7.5.2.2 Analyse de plusieurs tableaux de distances 

Pour les mêmes n individus on dispose de q tableaux de distances ou de dissimilarités (par 
exemple q juges donnent leurs appréciations sur les mêmes objets). Le modèle INDSCAL 
développé par J.D. Carroll permet de donner une configuration unique des n points et 
d’étudier les différences entre juges. On se ramène tout d’abord à q matrices de distances 
euclidiennes par la méthode de la constante additive A 1 , À 2 , . . ., A r/ on note d\ k) la distance 
entre les objets i et j pour le tableau k. 

Le modèle INDSCAL postule que : 

(df fiïjï m\ k) (x‘ - Xj) 2 


En d’autres termes il existe une configuration dans un espace à r dimensions pour les 
objets (coordonnées a -), les juges utilisant des métriques diagonales différentes : 


M (k) 


m\ k \ 0 

0 ■ m [ k) 


c’est-à-dire pondérant différemment les dimensions sous-jacentes. Il s’agit donc de trou¬ 
ver une dimension r, les métriques M (t) et la configuration X approchant le mieux les 
données A (t) . On convertit tout d’abord les tableaux A (fc) en tableaux W (k) de produits scalai¬ 
res par la formule de Torgerson et on pose : 

wjj = 5) m \ k) a\ bj + e 

/= i 


Si les m et les a sont connus on estime les b par les moindres carrés. Ensuite on estime les 
m en fixant a et b. puis les a en fixant les m et les b , etc. Les propriétés de symétrie des 
tableaux W (t) impliquent que les a et les b sont cohérents (a\ — b ■) et l’algorithme converge. 
Rien ne prouve cependant que les ni (k) obtenus soient positifs mais l’expérience montre qu’il 
en est ainsi dans la plupart des cas avec r faible. 
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7.6 EXTENSIONS NON LINÉAIRES 

L/ACP est une méthode linéaire au sens où les composantes principales sont des com¬ 
binaisons linéaires des variables initiales et aussi parce qu’elle est basée sur les coeffi¬ 
cients de corrélation linéaire. Si les relations entre variables ne sont pas linéaires, l’ACP 
échoue en général à représenter correctement les données et à extraire de nouvelles varia¬ 
bles intéressantes. On sait en effet que le coefficient de corrélation linéaire peut être 
faible en présence de liaisons fortement non linéaires ( cf. chapitre 6). La solution est alors 
de transformer les variables préalablement à l’ACP, afin d’obtenir des corrélations plus 
élevées et se rapprocher de la linéarité, ce qui revient à se rapprocher de la normalité 
(cf. chapitre 3 page 84). 

7.6.1 Recherche de transformations séparées 

Il est bien sur possible et souvent recommandé d’utiliser des transformations analytiques 
classiques (logarithme, puissance, etc.), mais elles ne sont pas forcément optimales. Cette 
notion d’optimum doit être précisée : on cherchera en général à maximiser le pourcentage 
d’inertie expliquée par les q premiers axes. La plupart du temps q = 2, mais q = 1 cor¬ 
respond à des solutions intéressantes. 

Pour une variable donnée Xj l’ensemble des transformations <fr-(„ïj) régulières (au sens 
de carré intégrable) est bien trop vaste : il est de dimension infinie et conduit à des 
solutions indéterminées si n est fini, même en imposant que la variable transformée soit 
centrée-réduite (I) . On se restreindra à des ensembles de transformations correspondant à 
des espaces vectoriels de dimension finie. Les transformations polynomiales de degré 
Fixé conviendraient mais ont l’inconvénient d’être trop globales et rigides. On leur préfé¬ 
ré des transformations polynomiales par morceaux appelées fonctions splines. 

Soit .v une variable définie sur [a, b] et k points intérieurs régulièrement espacés ou non, 
on appelle spline de degré d à k nœuds une fonction S(.v) qui sur chacun des k + 1 interval¬ 
les est un polynôme de degré d et esL d - 1 fois dérivable si d > 1, ou seulement continue si 
d = 1 (linéaire par morceaux). 

Les splines de degré 2 ou 3 sont souvent utilisées pour leur aspect « lisse ». 

Les splines permettent d’approcher toute fonction régulière. 

Il est facile de montrer que les splines de degré d à k nœuds forment un espace vectoriel 
de dimension d + k + 1. Tout d’abord les combinaisons linéaires de splines de degré d à k 
nœuds sont encore des splines de degré d à k nœuds. Sur l’intervalle I,, le polynôme est libre 


I «Dans le cadre de l’ACP entre variables aléatoires (n infini) le problème admet la solution suivante (sans démonstra¬ 
tion) liée à l'analyse canonique généralisée de J.D. Carroll. La première composante principale c des variables transformées 

P 

de façon optimale vérifie max^p 2 (c ; <I> (*'))■ P° ur c fixé maxp 2 (c ; (x-')) est atteint pour = E(c/x<). c est 

c * '’*■ / “ i J 

(! 

donc tel que \c — 5) E(c/V) avec X maximal. 
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et dépend de d + 1 paramètres, mais sur chacun des k intervalles suivants, les conditions de 
raccordement (continuité et dérivabilité d — 1 fois) ne laissent plus qu’un paramètre libre, 
d’où le résultat. Puisque l’ensemble des transformations spline est un espace vectoriel, on 
peut exprimer toute fonction S(.v) comme une combinaison linéaire de d + k 4- 1 éléments 
d’une base, ce qui revient dans un tableau de données X à remplacer chaque colonne-varia¬ 
ble par d + k + 1 colonnes. On utilisera pour sa simplicité une base permettant des calculs 
rapides : les B-splines. En voici deux exemples en supposant que a = 0 et b = 1 avec des 
nœuds régulièrement espacés. 

Les splines de degré 0 qui correspondent à des transformations constantes par morceaux 
(fonctions en escalier) : 


f Bj(x) = 1 si .V e lj 
= 0 sinon 

La variable x est alors remplacée par un tableau disjonctif. 



Figure 7.9 


Les splines de degré I correspondent à des transformations continues, linéaires par morceaux. La figure 7.10 donne 
les cinq fonctions de base associées à trois nœuds. 
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r B\{x) = 1 - (k + 1 )x si a e /, 

[fî,( a) = 0 sinon 

' B 2 {x) - (k + l).v si x e /, 

. B 2 (x) = 2 - (k + 1 ).v si a- g h 
B 2 (x) = 0 sinon 

' B j+ ,(-v) = (k + 1)a - (7 - 1) si a g Ij 
■ B j+ |(a) = j +[ - (k + I )A si A G J j+l 
Bj +1 (a) = 0 sinon 

r B k+2 ( a) = (/:+! )a - A- si a g / t+] 

[ 5 a - +2 (a) = 0 sinon 



Nous ne donnerons pas les formules pour les degrés supérieurs, car de nombreux logiciels 
les intègrent. Etant donné un point a seules d + 1 fonctions de base sont non nulles et de 
somme égale à 1 (codage « flou »). 

La recherche de la transformation de chaque variable ou combinaison linéaire des 
B-splines. maximisant l’inertie du premier axe de I’ACP s’obtient en effectuant simple¬ 
ment l’ACP du tableau augmenté à n lignes et p{d + k + I) colonnes. La maximisation de 
la somme des inerties sur q axes requiert un algorithme plus complexe que nous ne 
détaillerons pas ici. 

Les tranformations splines ne sont pas monotones : on peut aisément y remédier si l’on veut 
des transformaüons bijectives. Les B-splines étant positives leurs primitives sont alors des 
fonctions splines croissantes de degré augmenté d'une unité (I-splines) ; on effectuera alors des 
combinaisons linéaires à coefficients positifs ( cf. J.O. Ramsay, 1988). 


7.6.2 La « !<ernel-ACP » 

Cette méthode récente (B. Schôlkopf et al ., 1996) consiste à chercher non plus des trans¬ 
formations séparées de chaque variable mais à transformer tout le vecteur x = (x 1 , x 2 .x 7 ’). 

Chaque point de E est alors envoyé dans un espace ( t>(E) muni d’un produit scalaire. La 
dimension de <t»(E) peut être très grande et la notion de variable se perd. On effectue alors une 
analyse factorielle sur tableau de distances entre points transformés selon la méüiode de 
Torgerson qui revient à l’ACP dans <b(E). Tout repose sur le choix du produit scalaire dans 
^(E) : si l’on prend un produit scalaire qui s’exprime aisément en fonction du produit scalaire 
de E, il n’est plus nécessaire de connaître la transformation ch qui est alors implicite. Tous les 
calculs s’effectuent en dimension n. 
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Soit k(.x,y) un produit scalaire dans <b(E) et <x.y> celui de E. Les choix suivants sont 
couramment utilisés : 

k(x.y) = «a-, y) +c) ,/ 


k(x, y) = exp 



k( a, y) = tanh(<A, y) +c) 


Il suffit alors de remplacer la matrice IV usuelle par celle où chaque terme est k(x, y), de 
la centrer en lignes et colonnes et d’en extraire les vecteurs propres pour obtenir les compo¬ 
santes principales dans <J>(E). 

Pour que k(x,y) soit bien un produit scalaire, on doit vérifier les conditions de Mercer qui 
signifient que toute matrice symétrique de terme k(x,y) doit avoir des valeurs propres positi¬ 
ves ou nulles. 







L’analyse canonique 
et la comparaison 
de groupes de 
variables 


8.1 ANALYSE CANONIQUE POUR DEUX GROUPES 

Lorsque n individus sont décrits par deux ensembles de variables (en nombre p et q 
respectivement) on cherche à examiner les liens existant entre ces deux ensembles afin de 
.savoir s’ils mesurent ou non les mêmes propriétés. 

Exemples : Les deux groupes de notes des disciplines littéraires et scientifiques ; des 
résultats d’analyses médicales faites par deux laboratoires différents. 

Le tableau de données analysé est donc de la forme suivante : 



On considère alors les deux sous-espaces de (R" engendrés par les colonnes de X, et X 2 
respectivement : 

IV, = {xjx = X,a) et W 2 = {y|y = X 2 b} 

W, et \V 2 sont les deux ensembles de variables que Ton peut construire par combinaisons 
linéaires des variables de deux groupes. Ces deux espaces peuvent être appelés « potentiels 
de prévision » (Cailliez, Pagès, 1976). 

Si ces deux espaces sont confondus cela prouve que l'on peut se contenter d’un seul des 
deux ensembles de variables, car ils ont alors même pouvoir de description ; s’ils sont ortho¬ 
gonaux, c’est que les deux ensembles de variables appréhendent des phénomènes totalement 
différents. Ces deux cas extrêmes étant exceptionnels, on étudiera les positions géométriques 
de W, et VV 2 en cherchant les éléments les plus proches, ce qui permettra en particulier de 
connaître dim(IV, fl VV 2 ). 
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Si les applications directes de l’analyse canonique sont peu nombreuses, elle n’en constitue 
pas moins une méthode fondamentale car sa démarche (rechercher des couples de variables en 
corrélation maximale) se retrouve dans d’autres méthodes comme l’analyse des correspondan¬ 
ces, la régression multiple, l’analyse discriminante : si la dimension q de l’un des groupes 
de variables est égale à 1, l’analyse canonique est équivalente à la régression linéaire multiple 
étudiée au chapitre 17. Si un des groupes est composé des q variables indicatrices d’une 
variable qualitative (données réparties en q catégories) et l’autre de p variables numériques, 
l’analyse canonique conduit à l’analyse factorielle discriminante présentée au chapitre 18. Si 
les deux groupes des variables sont composés respectivement des indicatrices de deux varia¬ 
bles qualitatives à p et q catégories, on obtient l’analyse des correspondances présentée au 
chapitre 9. sa 

8.1.1 Recherche des variables canoniques 

On supposera que K" est muni de la métrique D. La technique est alors la suivante : 
chercher le couple (£,, tj,) de vecteurs normés où £, e IV, et tj, e IV 2 forment l’angle le plus- 
faible ; et rj, sont des combinaisons linéaires respectives des variables du premier et du 
second groupe appelées variables canoniques. 

On recherche ensuite un couple (| 2 , ttj 2 ) avec £ 2 D-orthogonal à et ttj 2 D-orthogonal à 
Y|, tels que leur angle soit minimal et ainsi de suite. On obtient ainsi les p couples de variables 
canoniques (on posera p = dim IV, et q = dim W 2 avec p 5 q). 

Notons A, et A 2 les opérateurs de projection D-orthogonale sur W, et W 2 respectivement. 

Il est facile de vérifier que les expressions matricielles explicites de A, et A 2 sont 
(si dim W| = p et dim W 2 = q) : 

A, - X,(X;DX,)-'xiDl 

a, = x,(x'-,dx,)-'x;d 

~ _ 1 

8.1.1.1 étude de la solution dans R" 

Il s’agit de rechercher deux vecteurs et nj, de Wj, tels que cos (y|,, ^,) soit maximal. 
En supposant pour l’instant que tj, et ne sont pas confondus, on voit géométriquement j 



Figure 8.1 
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que iii doiL être tel que A,*], sa projection sur IV, soit colinéaire à En effet, l’élément 
le plus proche deTi, est la projection D-orthogonale der|, sur VE,. Réciproquement,^, doit 
être l’élément de W 2 le plus proche de (ou de Aj-rj,), donc t| ( doit être colinéaire à 
A 2 A|T1 i- 

Notre problème revient donc à trouver les valeurs propres et les vecteurs propres de A 2 A, 
puisque A 2 A,ti| = X-itj,. 

Inversement, il est immédiat que ij, est vecteur propre de A,A 2 associé à la même valeur 
propre. 

X, représente le carré du cosinus de l’angle formé par iq, et ce qui entraîne 

1 . 

Le cas X, = 1 nous donne = t|,, donc ri, e W ] flW 2 . 

Les vecteurs propres de A 2 A, appartiennent à W 2 : 

en effet, en prémultipliant A 2 A 1 ti 1 = X|T| par A 2 on trouve puisque A^ = A 2 , 
A 2 A,ti = X,A 2 t|, donc A 2 t), = tq, ; 

- on trouve de même que les vecteurs propres de A,A 2 appartiennent à W } . 

Montrons que A 2 A, est diagonalisable : puisque les vecteurs propres de A 2 A, appartien¬ 
nent nécessairement à W 2 il suffit d’étudier la restriction de A 2 A, à W 2 . 


Théorème 


La restriction de A 2 A, à W 2 est D-symétrique. 


Si nous notons (x ; y ) le produit scalaire associé à la métrique D : 

(x ;y) = x'Dy 

il faut montrer que quel que soit x, y e W 2 : 


(x ; A 2 A, y ) = ( A 2 A,x ; y ) 


on a : 


(x ; A 2 A,y ) - (A 2 x ; A,y) 


= (x ; A,y) 
= ( A, x ; y ) 


= (A,x ; A 2 y ) 
= ( A 2 A,x ; y ) 


car A 2 est D-symétrique 
car x e W 2 

car A, est D-symétrique 
car y g W 2 

car A 2 est D-symétrique 


c.q.f.d. 


Ceci entraîne que la restriction de A 2 A, à W 2 . et par suite A 2 A,, est diagonalisable, ses 
vecteurs propres sont D-orthogonaux et ses valeurs propres X, sont réelles. De plus, les 
-V, sont > 0 car A 2 et A, sont des matrices positives. 

A 2 A, possède au plus min (/;, q) valeurs propres non identiquement nulles. L’ordre 
de multiplicité de X, = 1 est alors la dimension de IV,fî W : ; les vecteurs propres associés 
à des valeurs propres nulles de rang inférieur à q engendrent la partie de W D-orthogonale 
à W,. 
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Les vecteurs propres £*,• et tj, D-normés de A|A 2 et de A 2 Aj sont associés aux memes 
valeurs propres et vérifient les relations suivantes : 


A 2 A|Y| f = X; Tj, 

VXfi l f = A 2 g, 

A|A 2 £; = Xj^ ( - 

Æ& = A,Tf|, 

= 0 

et = 0 pour i^j 

qui entraînent de plus : 

■n'/Dfe = o 

pour/Ay 


8.1.1.2 Solutions dans ÎR 77 et IR' / 

Les variables canoniques et r), s’expriment comme combinaisons linéaires des colon¬ 
nes de X, et X 2 respectivement : 

£, = X,a f et T|, = X 2 b, 

Les a, et b,- sont les facteurs canoniques qui s’obtiennent directement de la manière 
suivante : 

A, A 2 £i = X ,^j A,A 2 X|a, — X;X|ii ( - 

en remplaçant les projecteurs par leur expression on a : 

X, (XjDX, r'X'i DX 2 (X 2 DX 2 )“’X' 2 DX, a,- = XjX.a, 

Si le rang de X, est égal au nombre de ses colonnes, on peut simplifier de part et d’autre 
par X| (multiplication par (X', X, )~ 1 X j) et on trouve : 

(X'jDXj-'X', DX 2 (X 2 DX 2 )" I X 2 DX,a/ = X,a, 

et de même : (X' 2 DX^-'X^DX^X', DX^ ’X jDX^, = X,b, 

Dans le cas où toutes les variables sont centrées : 

X(Di = x;di = o 

les matrices X'DX 7 s’interprètent comme des matrices de covariance. On note usuellement : 

v,, = x',dx, v 12 = x;dx 2 

V 22 = X' 2 DX 2 V 2! = X' 2 DX, - (V (2 )' 

Les équations des facteurs canoniques s’écrivent alors : 

VnV, 2 VÎVV2,a/ - X^j 

V^VsiVn'Vnb, = X/b ; 

et les valeurs propres X, sont les carrés des coefficients de corrélation canonique entre les 
variables canoniques. Sur le plan pratique, on diagonalisera évidemment la matrice de taille 
la plus faible. 





gîisaL'analyse canonique et la comparaison de groupes de variables 


193 


Comme on a : = X,a, et T|, = X 2 b, si l’on désire que les variables canoniques soient 

de variance unité, on normera les facteurs principaux de la manière suivante : 

a-V,,a ( - = 1 ~Tt b'V 22 b, - 1 


On en déduit : 




V 22 'V 21 a,- et 


a / 




vr, 'v,,b, 


Comme seuls comptent les sous-espaces et W 2 , il est équivalent de travailler avec des 
variables de variance 1. On utilisera donc en général les matrices de corrélation R n , R 12 , etc 
à la place des matrices de variance. 

8. ! .2 Représentation des variables et des individus 

Deux sortes de représentations sont possibles selon qu’on choisit les variables canoniques 
de W\ ou de W 2 . Si Ton fait choix de W, on représentera l’ensemble des variables de départ 
D-normées (colonnes de X, et de X 2 ) en projection sur la base D-orthonormée formée 
par les 

En particulier, la projection sur le plan engendré par et £ 2 donne un cercle des cor¬ 
rélations (fig. 8.2) car, si les colonnes de X| sont D-normées ainsi que celles de X 2 , les 
composantes sur la base des £,■ sont les coefficients de corrélation entre les variables 
initiales et les variables canoniques. 



Figure 8.2 


Si Xf. est la /c lt:me colonne de Xj on a x-;r>s, = x'iDX.a, ; le coefficient de corrélation entre 
x k et est la £ lcmc composante de V,, a, car x k est égal à X,S A . où est le vecteur de IR ;I 
dont toutes les composantes sont nulles sauf la k [cmc qui vaut 1. 

Si y j est la colonne de X 2 : 

y ;D£, = s;x;Dx ia/ 

la corrélation entre y, et est alors la / lcmc composante de V 21 a, ou encore la P tmc compo¬ 
sante de VX|V 22 b / . 
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Si les colonnes de X, et X 2 ne sont pas D-normées il faut diviser les expressions précé¬ 
dentes par les normes de x* ou y,. 

Les représentations sur (£ h £ 2 ) et ("Ho 2 ) sont d’autant plus voisines que et \ 2 sont 
proches de 1. 

Pour les individus deux représentations des individus sont possibles selon les variables® 
canoniques choisies. 

Si l’on choisit le plan défini par (£,, £ 2 ) les coordonnées du j >etna point sont les j' ima com¬ 
posantes des variables canoniques £, et £ 2 . 

8.1.3 Test du nombre de variables canoniques significatives 

On peut arrêter l’extraction des valeurs propres et des vecteurs propres au moyen du test 
de Bartlett. .jf 

L’hypothèse que les deux ensembles de variables sont indépendants revient à tester = 0. 

Si cette hypothèse est rejetée, on teste la nullité de k 2 . etc. j 

D’une façon générale, si \ 2 . \ k sont jugés significativement différents de zéro, on 

teste la nullité des valeurs propres suivantes en utilisant la quantité : 

1 *' f 

- n — I - k - - (p + q + 1) + 2— 

- /= 1V 

qui suit approximativement un x? r -*)(<•;- S] valeur théorique de \ k + , (donc de \ k + 2 -) est 
nulle. 

Le test précédent n’est valide que dans le cas de variables normales et ne s’applique en aucu¬ 
ne façon aux cas particuliers que sont l’analyse des correspondances et l’analyse discriminante. 

8.2 MÉTHODES NON SYMÉTRIQUES 

POUR DEUX GROUPES DE VARIABLES 

L’analyse canonique est une méthode faisant jouer des rôles symétriques aux deux grou¬ 
pes de variables. Si l’un d’entre eux est privilégié diverses approches sont possibles. 

8.2.1 Méthodes procustéennes de comparaison 
de deux configurations d’individus 

On suppose ici que les deux groupes de variables ont même dimension (cas auquel on peut 
toujours se ramener en rajoutant des coordonnées nulles) afin de confondre les espaces Wj et VV 2 . 

On dispose donc de deux cartes /^-dimensionnelles des mêmes n individus obtenues par 
des procédés différents et on cherche à les comparer. 

Le principe consiste alors à fixer l’une des deux configurations (le tableau X,) et à faire 
subir à l’autre une transformation géométrique simple (X 2 = X 2 T) telle que les deux confi¬ 
gurations deviennent les plus proches possibles, un critère naturel étant : 

min 2 II e / “ ë/ II 2 = min Trace [(X, - X 2 T)(X, - X 2 T)'] 


/ miil( /). q) 

In Et O " X,-) 

\ k+ 1 
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Ce type de problème se rencontre en particulier pour comparer des solutions différentes 
de midticliinensional scaling où les axes ne sont pas les mêmes. 

On suppose dans la suite que les poids des individus sont égaux à 1//2, mais il est facile 
d’étendre les résultats au cas général. 

Si T est une transformation quelconque la solution des moindres carrés est donnée par : 

t = (x;x 2 r>x;x, = v 2 - 2 'v 21 

En général, on impose à T d’être une transformation orthogonale : 

l’idée est de faire subir à l’une des deux configurations une série de rotations, symétries, 
retournements de façon à l’amener le plus possible sur l’autre. 

Le problème devient : 

min Trace |(X, - X,T)(X, - X,T)'] avec TT' = I 

T 


. p( P + 1 ) 

soit ---contraintes. 

Réécrivons tout d’abord le critère : 

Trace (X, - X 2 T) (X, - X 2 T)' = Trace X,X', + Trace X 2 TT'X 2 - 2 Trace X;X 2 T Si 
TT' — I on voit que T doit maximiser Trace V| 2 T sous la contrainte TT' — I. 

Introduisons alors la matrice A/2 symétrique de taille p des multiplicateurs de Lagrange 

p(p + 1) 

associés aux-— contraintes. On doit alors rendre maximum : 


Trace 


V 12 T 


-À(TT -I) 


1 


en dérivant cette expression par rapport à la matrice T on obtient le système d’équations : 

V 2] = AT soit A = V 2 |T' en multipliant par T' 

d d 

car — Trace V P T — V-.! et —Trace ATT' = 2AT. 
dT - 1 dT 

Pour trouver T nous écrivons V 21 sous forme de décomposition en valeurs singulières. 

V 21 = VSU' où S est la matrice diagonale des valeurs propres de V 2 iV| 2 , V la matrice 
orthogonale des vecteurs propres normés de V 2 iV| 2 , U la matrice orthogonale des vecteurs 
propres normés de V 12 V 2I . 

On en déduit : 

A = VSU'T' = TL1SV' car A est symétrique 

d’où A 2 = VSU'T'TUSV' = VS 2 V' donc A = VSV' et V 21 = AT donne VSU' = VSV'T 
La meilleure transformation orthogonale T est donc telle que : 


T = VU' 
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8.2.2 Méthodes factorielles 

Leur principe consiste à chercher des combinaisons linéaires de variables d’un des deux 
groupes vérifiant certaines conditions ou contraintes liées à l’existence du deuxième groupe 
de variables. Selon que l’on cherche à se rapprocher du deuxième groupe ou au contraire à 
s’affranchir de son influence on pourra utiliser : 

8.2.2.1 L'analyse en composantes principales 
de variables instrumentales (ACPVI) 


On recherche des combinaisons linéaires £ des variables du premier groupe « expliquant» 
le mieux les variables du deuxième groupe. C. R. Rao a introduit le critère suivant : 

“ Si l’on régresse les m 2 variables du tableau X 2 sur la somme des variances résiduelles doit 
être minimale. ” 

En posant £ = X,a, ce critère revient à rendre maximale la somme des variances expli¬ 
quées soit à un coefficient près : 

/II, 

2(x 7 2 )'^r l ÊV 2 ) 

7=1 


^(xi)'X, aa'X,' (xi) X'-,X,aa'X;Xn 

", a'x;x,a a'X[X,a 

Vi,aa'Vp a'V p V->,a 

Trace- r =--—— 

a'V n a a'V,,a 


a est donc vecteur propre associé à sa plus grande valeur propre, de la matrice : 



Les valeurs propres suivantes conduisent à d’autres solutions non corrélées entre elles. 

Lorsque X 2 est un ensemble de variables de variance unité, £ est la combinaison linéaire 
des variables de X t la plus corrélée avec les variables de X 2 au sens où : 

/II, 

^ r 2 (£ ; x j 2 ) est maximal 

7=1 


On reconnaît ici une expression voisine du critère usuel de T ACP réduite : ici on calcule : 
les corrélations avec des variables externes. 

Les variables £ sont les composantes principales de l’ACP de X| avec pour métrique^ 
M = Vn'VpV.iVr, 1 = (Vr/VnXViï’VpJ' ou, ce qui est équivalent, les composantes: 
principales du tableau XiVf/Vp avec la métrique identité : en d’autres termes on effectue; 
l’ACP des projections des variables de X 2 sur X,. 

Le coefficient de redondance de Stewart et Love entre deux groupes de variables : R 2 (X 2 : X,) 
(notons que R 2 (X , : X 2 ) ¥= R 2 (X 2 : X,)) : 


est: M 2 (X 2 : X,) 


Trace (jVV^Vp) 
Trace V,, 
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1 m J 

Lorsque Vn = Rn (variables de X-, standardisées) V? 2 (X-> : X,) = — Y R 2 (xi ; X,) 

moyenne des carrés des coefficients de corrélation multiple des régressions des xi sur X.. 

On voit alors que les composantes principales des variables instrumentales £ sont les 
combinaisons linéaires des colonnes de X, ayant une redondance maximale avec X 2 . 

On vérifie aisément que £ est vecteur propre de A ( W 2 où : 

a, = x^x'.x.i-'x; et w 2 = x 2 x; 

8.2.2.2 ACP sous contrainte d’orthogonalité 

On peut inversement rechercher des combinaisons linéaires des variables de X, de variance 
maximale sous la contrainte d’être non corrélées aux variables de X 2 afin d’éliminer leur effet. 
Pour que le problème ait une solution il faut que m 2 < m,. On montre alors que les facteurs 
a tels que £ = X,a sont vecteurs propres de : 

a- v, 2 (v 2 I v P _r l v 2 l )v M 

8.2.2.3 ACP des covariances partielles 

Une autre manière d’éliminer l’influence des variables extérieures X 2 consiste à utiliser la 
matrice des covariances (ou des corrélations) partielles de X, à X 2 fixé : 

V|, /2 - V„ - Y| 2 Y 22 , V 2I 

On cherche alors les vecteurs propres de cette matrice. Il s’agit ici d’une ACP du nuage 
des résidus des régressions des variables de X] sur X 2 : les « composantes principales » ne 
sont pas ici des combinaisons linéaires des variables de X,. 

8.3 L’ANALYSE CANONIQUE GÉNÉRALISÉE 

Étendre l’analyse canonique à plus de deux groupes de variables se heurte d’emblée 
à la difficulté suivante : il n’existe pas de mesure simple de la liaison entre plus de deux 
variables. Il y aura donc autant de façons d’obtenir des variables canoniques que de 
manières de définir une « corrélation » entre p variables : on peut prendre par exemple 
comme mesure la somme des corrélations deux à deux, la somme des carrés des corréla¬ 
tions, le déterminant de la matrice des corrélations, etc. Toute généralisation est donc plus 
ou moins arbitraire. Celle que nous présentons ici a l’avantage d’être sans doute la plus 
simple et la plus riche d’interprétations, car elle se relie aisément à toutes les autres 
méthodes d’analyse des données. 

8.3.1 Une propriété de l’analyse canonique ordinaire 

Étant donné deux ensembles de variables centrées X, et X 2 , les variables canoniques 
î et t], vecteurs propres de A|A 2 et A 2 A, respectivement, possèdent la propriété suivante : 

£ + r\ est vecteur propre de A, + A 2 
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En effet, posons z tel que (A, + À : )z = pz ; en préinultipliant par A, ou A 2 cette 
équation, on trouve en utilisant 1' idempotence de A, et A 2 : d 

A ( (A | + A 2 )z = pA |Z 1 

soit : A|A : z = (p - 1)A|Z et A 2 A,z = (p — l)A 2 z 

ce qui donne : 

A,A 2 A,z - (p - l) 2 A,z 
A*>A|A">z — (p l)-A->z 

donc au même coefficient multiplicateur près, A,z et A 2 z ne sont autres que les variables 
canoniques i; et tj ; comme A,z + A 2 z = pz on trouve pz = £ + tj, ce qui démontre la 
propriété annoncée (fig, S.3). 



La variable z possède la propriété d’être la plus liée aux deux ensembles X, et X 2 , en ce ; 
sens qu’elle a une somme des carrés des coefficients de corrélation multiple maximale avec J 
X, et X 2 , 

En effet, le coefficient de corrélation multiple de z avec X f vaut : 

= zDAjZ = Il A ; -z || 2 
f z Dz ||z|| 2 

car les variables étant centrées, /?, est le cosinus de l’angle formé par z et W,-. 

8.3.2 La généralisation de J. D. Carroll (1968) 

De la propriété précédente découle la généralisation suivante due à J. D. Carroll : plutôt 
que de rechercher directement des variables canoniques dans chacun des sous-espaces U',- 
associés à des tableaux de données X,-, on cherche une variable auxiliaire z appartenant à la; 
/’ 

somme des Vf,- telle que ^ R 2 (z ; X f ) soit maximal. 
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z est alors vecteur propre de A, + A : + • • • + A ;) : 

(A, + A 2 + • • • + A ; ,)z = jxz 

On obtient ensuite, si nécessaire, des variables canoniques |, en projetant z sur les IV,-. 

É- = A ' Z - 

Si Ton pose X = (X,|X 2 | . . . |X /( ), matrice à n lignes et 2jin, colonnes, la variable z se met 

i=i 

sous la forme Xb et plutôt que de rechercher z comme vecteur propre d’une matrice n, n il 
vaut mieux chercher b qui possède Stn,- composantes. 

Comme A, = X / (XJDX,-)“ l XJD, en posant V,-, = X'DX, matrice de variance-covariance 


du i' cm ~ groupe et M = 


r— I 


matrice bloc-diagonale des V,- 1 , on 


!’ P i> 

trouve aisément que 5)A ( - = ^XyVpX-D s’écrit en fait T] A, = XMX'D, 

/=] i=i ;=i 

Donc z est vecteur propre de XMX'D, et puisque z = Xb, si X est de plein rang, b est 
vecteur propre de MX'DX : 


XMX'Dz = (jlz 
MX'DXb = pib 


On reconnaît alors les équations donnant les composantes principales et les facteurs prin¬ 
cipaux, dans l’ACP du tableau total X avec la métrique M. 

En particulier si chaque groupe est réduit à une seule variable (/»,• = 1, / = 1,2,,. p) on 

/> 

retrouve l’ACP avec la métrique D ia .i puisque z rend alors maximal ^ r 2 (z ; x'). 

t=i 

L’analyse canonique généralisée est donc une ACP sur des groupes de variables, ce qui 
nous ramène à une optique de description des individus tenant compte des liaisons par blocs 
plutôt qu’à une optique de description des relations entre variables. 

On a toujours X{x A . = S/»,- Si p. = p, il existe une intersection commune à tous les IV,-. 

Les « variables canoniques » |p que l’on déduit des z (k) par projection orthogonale sur les 

lV ( ont alors lapropriété suivante, du moins pourl’ordre 1 : lep-uple (f-p, | 2 *.|j, n ) a une 

matrice de corrélation dont la plus grande valeur propre L, est maximale. 

Contrairement à l’analyse canonique usuelle avec p = 2, il n’y a pas orthogonalité entre 
les |p et les fjp. 
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On verra au chapitre 10 que si chaque groupe est celui des variables indicatrices de p 
variables qualitatives, l'analyse canonique généralisée conduit à l’analyse des correspon¬ 
dances multiples. L'analyse canonique généralisée de Carroll n'est pas la seule méthode 
de traitement simultané de p groupes de variables ; de très nombreuses techniques ont été 
proposées : la méthode Statis, l’analyse factorielle multiple sont les plus connues. Le lec¬ 
teur intéressé est invité à consulter les ouvrages de B. Escofier. du Geri, ainsi que l’article 
de synthèse de P. Cazes (2004) cités en bibliographie. 







L'analyse des 
correspondances 


Cette méthode a été proposée en France par J.-P. Benzécri dans ]e but d’étudier la liaison 
(dite encore correspondance) entre deux variables qualitatives ; un exemple de correspon¬ 
dance nous est fourni, par exemple, par la ventilation des séjours de vacances selon le mode 
d’hébergement et la catégorie socio-professionnelle (CSP) (voir chapitre 6, § 6.5). 

Sur le plan mathématique, on peut considérer l’analyse des correspondances soit comme 
une analyse en composantes principales avec une métrique spéciale, la métrique du x 2 . soit 
comme une variante de l’analyse canonique. Nous développerons ces deux aspects en accor¬ 
dant toutefois la préférence à l’aspect analyse canonique qui a entre autres avantages de 
respecter la symétrie entre les deux variables et de généraliser sans difficulté l’analyse des 
correspondances à plusieurs variables qualitatives. 


9. S TABLEAU DE CONTINGENCE ET NUAGES ASSOCIÉS 

9.1.1 Représentations géométriques des profils associés 
à un tableau de contingence 

Le tableau des données est un tableau de contingence N à m, lignes et nu colonnes 
résultant du croisement de deux variables qualitatives à m, et nu catégories respectivement 
(voir chapitre 6, paragr. 6.5). 

Si l'on note D { et D 2 les matrices diagonales des effectifs marginaux des deux variables : 



~ n 1. 

0 ' 


"«.1 

0 “ 


Il 2. 



Il -2 


= 



d 2 = 




_ 0 

,l m,_ 


.0 



Le tableau des profils des lignes d’éléments —' J - est alors Dl ! N. 

n,j 

Le tableau des profils des colonnes d'éléments —— est alors ND 2 . 
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Les profils de lignes forment un nuage de /«j points dans IR '" 2 ; chacun de ces points étant 

( D, \ 

affecté d’un poids proportionnel à sa fréquence marginale (matrice de poids : — I. 

Le centre de gravité de ce nuage de points est : 



c’est-à-dire le profil marginal. 

Réciproquement, les profils-colonnes forment un nuage de nu points dans K'” 1 avec des 

D, 

poids donnés par la matrice — ; leur centre de gravité g ( . est le point de coordonnées : 

n 



Pour garder les conventions du chapitre 7, les profils des colonnes de N sont les lignes du 
tableau transposé D7 1 N' (« individus » en lignes, « variables » en colonnes). 

Dans le cas de l’indépendance statistique : 


’h = 'h et 

11: Il 


tJji = , lii 

HJ n 


les deux nuages sont alors réduits chacun à un point, leurs centres de gravité respectifs. 

L’étude de la forme de ces nuages au moyen de l’analyse en composantes principales 
permettra donc de rendre compte de la structure des écarts à l’indépendance mais il faut 
choisir alors une métrique pour chacun de ces espaces. 



Figure 9.1 
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Remarquons que les profils ayant pour somme 1, les m, profils-lignes sont en réalité situés 

Ht y 

dans le sous-espace W 2 de dimension m 2 ~ I défini par ^Xj - J (avec en plus Xj > 0) ainsi 

j= i 

que leur centre de gravité (fig. 9.1). De même pour les m 2 profils des colonnes. 


9.1.2 La métrique du x 2 

Pour calculer la distance entre deux profils-lignes i et /' on utilise la formule suivante : 



H s’agit donc de la métrique diagonale 7?D 2 

.La considération suivante justifie dans une certaine mesure l’emploi de la distance du x 2 ■ 

La pondération par — de chaque carré de différence revient à donner des importances 
"■j 

comparables aux diverses « variables » : ainsi, dans l’exemple de la correspondance modes 
d’hébergement X CSP, (voir chapitre 6 et § 9.3) si l’on calculait la distance entre deux modes 
par la formule usuelle : « somme des carrés des différences des pourcentages des diverses 
CSP », il est clair que cette distance refléterait surtout la différence entre les CSP les plus 
importantes en nombre ; pour pallier cet inconvénient la division par ü j est un bon remède 
(quoiqu’un peu arbitraire). 

L’argument le plus fréquemment utilisé en faveur de la métrique du x 2 est le principe 
d’équivalence distributionnelle : si deux colonnes de N, / et/, ont même profil il est logique 
de les regrouper en une seule d’effectifs (» (J 4- n^), il faut alors que cette opération ne modi¬ 
fie pas les distances entre profils-lignes. 

On vérifie en effet par simple calcul que : 

n ÿ + n u‘ _ n i'j + ’h'A 1 

n,. /i,-. / 

lorsque — — —. 
n.j n. r 

Cette propriété n’est pas vérifiée pour la métrique euclidienne usuelle. 

La justification la plus profonde, mais la plus difficile, est en fait la suivante : les profils-lignes 
sont des lois de probabilité sur des ensembles finis de m 2 éléments (les modalités de la deuxiè¬ 
me variable). Au moyen de l’espérance mathématique, à ces lois de probabilité sont associées 
des formes linéaires (qu’on leur identifie) sur les variables quantitatives compatibles avec la 
deuxième variable qualitative. Ces variables quantitatives (qui réalisent une quantification de 
la deuxième variable qualitative) formant un espace vectoriel, les « individus » sont donc des 
éléments du dual de cet espace (pas tout le dual, mais un simplexe de ce dual). 

Les modalités de la deuxième variable ayant pour poids p u p 2> . . ., les variables 

1 

quantitatives associées sont munies de la métrique - D-, qui est la métrique de la covariance, 

n 
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si l’on se restreint à des codages centrés. Le dual doit donc être muni de la métrique inverse 

nDj 1 . 

On définit de même la métrique du x 2 entre profils-colonnes (matrice //D[ ') par la formule : 


i4 = 





Le terme de métrique du x 2 vient de ce que les deux nuages ont alors pour inertie totale 
la quantité mesurant l’écart à l’indépendance : 


11 1 j 


llj. II. 


Il 


n.j 

n 


(voir chapitre 6) 


En effet, l’inertie du nuage des profils-lignes par rapport à g, vaut : 


«ii 


n 

/=i « 


2 — d\a. g ,)=ES— 


ce qui donne cp 2 après un calcul élémentaire. Il en est de même pour l’inertie du nuage des 
profils-colonnes. 

Nous avons remarqué que le nuage des points profils-lignes était dans un sous-espace W, : 
le vecteur Og, est alors orthogonal au sens de la métrique du x 2 à ce sous-espace (fig. 9.2) : 



En effet, soit x un élément de IV, : 

(x - g/V/rDf 'g, = < Og, ; g,x > x : = 0 


car : 


nD, 1 g / 


1 

1 


et pour tout élément de VV, : x'1 = 1 donc g,' 1 = 1. 
De Plus || g,|| 2 : = g)l - L 
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9.2 ANALYSES EN COMPOSANTES PRINCIPALES 
DES DEUX NUAGES DE PROFILS 

Deux ACP sont alors possibles : 

1) Celle du nuage des profils-lignes avec : 

- tableau de données X = Dp'N ; 

- métrique M = /fDj 1 ; 

- poids D = —-. 

n 

2) Celle du nuage des profils-colonnes avec : 

- tableau de données X = Dp'N' (Le tableau des profils colonnes est 

ND7 1 mais, pour garder l’usage de 
mettre les “individus” en ligne, il faut 
le transposer ; d’où X = DjW) ; 

- métrique M - /iDf 1 ; 

D, 

- poids D = —. 

n 

Nous allons voir que leurs résultats sont en dualité exacte. 


9.2.1 ACP non centrées et facteur trivial 

La matrice de variance d’un nuage de profil est V = X'DX - gg'. 

D’après la propriété établie à la fin du paragraphe 9.1.2 Og est orthogonal au sup¬ 
port du nuage, il est donc axe principal, c’est-à-dire vecteur propre de VM, associé à 
k = 0. 

Les vecteurs propres de VM sont alors les mêmes que ceux de X'DXM avec les mêmes 
valeurs propres sauf g qui a pour valeur propre l. 

En effet gg'M est de rang 1 et : 

X'DXM = VM + gg'M 

d’où : X'DXMg = VMg + gg'Mg 

= 0 + gllëll? 

= g 

Il est donc inutile de centrer les tableaux de profils et on effectuera des ACP non 
centrées : la valeur propre 1 dont on verra plus tard qu’elle est maximale sera ensuite 
à éliminer. A cette valeur propre triviale est associé l’axe principal g et le facteur princi¬ 
pal constant : 
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9.2.2 ACP non centrées des nuages de profils 

Il suffit d’appliquer ici les résultats du chapitre 7 : les facteurs principaux sont les vec¬ 
teurs propres de MX'DX, les composantes principales les vecteurs propres de XMX'D. 

Pour les lignes on a X = Dp 1 N d’où X'DX = - N'Df’N, MX'DX = D7 1 N'Df 1 N et 1 
XMX'D = Df'NDf'N'. " 

Pour les profils-colonnes il suffit de transposer N et d’inverser les indices 1 et 2, comme 
le montre le tableau 9.1: 


Tableau 9.1 


ACP des profils-lignes 

i 

ACP des profils-colonnes 

Facteurs principaux 

Vecteurs propres de 

DJ 1 N'Df 1 N 

Vecteurs propres de 
j Df'NDf'N' 

Composantes principales 

Vecteurs propres de 
Df'NDj’N' 

normalisés par 

a — a = X i 

n 

Vecteurs propres de 
Dj’N'Df'N 

normalisés par 

b^b = \ 
n 


On constate que les deux analyses conduisent aux mêmes valeurs propres et que les 
facteurs principaux de l’une sont les composantes principales de l’autre (à un coefficient 
multiplicateur près). 

En pratique on s'intéresse ici exclusivement aux composantes principales pour obtenir 
directement les coordonnées factorielles des points représentatifs des profils-lignes ou 
colonnes. On remarque que les matrices ayant comme vecteurs propres les composantes 
principales sont les produits des deux matrices [Df 1 N] et [D7 1 N'] dans un ordre ou dans 
l’autre : 

Les coordonnées des points-lignes et points-colonnes s'obtiennent en cherchant 
les vecteurs propres des produits des deux tableaux de profils. 

La parfaite symétrie entre ACP des profils-lignes et ACP des profils-colonnes conduit 
alors à superposer les plans principaux des deux ACP afin d’obtenir une représentation 
simultanée des catégories des deux variables croisées dans le tableau de contingence N. 
Cette pratique sera justifiée plus en détail au paragraphe 9.4.4 

Les cercles de corrélation n’ayant aucun intérêt ici dans le contexte de variables 
qualitatives l’interprétation des composantes se fait essentiellement en utilisant les contri¬ 
butions des diverses catégories aux inerties des axes factoriels, c’est-à-dire aux valeurs 
propres. 
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Comme : 


^ = - X n i.(cii ) 2 - - 2 »./(^) 2 


j= « 


On appelle contribution (CTR) du profil-ligne r à l’inertie le quotient : 



On a de même : 


CTR(y) = 



Comme en ACP on considérera les catégories ayant les plus fortes contributions comme 

ii j 

constitutives des axes : un cntère simple consistant à retenir les CTR(/) > — : . La contribution 

n 

doit être complétée par le signe de la coordonnée car certaines catégories peuvent avoir des 
contributions de sens opposés. 

Remarquons qu’ici ^ —= Y b: = 0 (les composantes sont centrées) ; il ne peut 
/ " j n 

y avoir d’effet de taille car les coordonnées des points ne peuvent être toutes positives ou 
toutes négatives. 


9.2.3 Formules de transition 

Les coordonnées des points-lignes et les coordonnées des points-colonnes sont reliées par 
des formules simples dont le premier intérêt est d'éviter de réaliser deux diagonalisations. 
On diagonalisera la matrice la plus petite, par exemple Df 1 NDf 1 N' si w, < m 2 . 

Connaissant les solutions a de l’équation : 

Df 1 NDJ 1 N'a = \a 

il suffit de prémultiplier les deux membres de cette équation par DT 1 N' pour obtenir un 
vecteur proportionnel à b : 


DJ 1 N'Df 1 NDJ 1 N'a = XDf'N'a 


On a donc b = /cD 2 1 N'a. Pour déterminer k il suffit d’utiliser la condition de 

normalisation b' — b = \ soit /c 2 a'ND7' — D7 1 N'a = —a'ND^r 1 N'a = X.. Comme 
il n n 

ND^'N'a = X.D, a il vient Xi; 2 a' — a = X soit k 2 X = 1 puisque a' — a = X. 
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On a donc les formules suivantes pour chaque axe : 


b = -pD^N'a 

1 /! ■ • 
soit b. = —= T — 

VX 

J ".j 

a - -^Df’Nb 

1 m i n 

S01t «/ = 4= 2 lu 











ci 2 


b 2 

avec : 

a = 


b = 

K tm 


Ces formules dites de transition sont des formules pseuclo-barycentriques au sens suivant : - 
à V\ près la coordonnée d’une catégorie / d’une variable est la moyenne des coordonnées des 
catégories de l'autre variable pondérées par les fréquences conditionnelles du profil de i. 

9.2.4 Trace et reconstitution des données 

9.2.4./ Décomposition du <p 2 

Nous avons déjà vu que l’inertie totale des deux nuages était égale au <p 2 . 

En éliminant la valeur propre triviale on a donc si //;, < nu : 

ni, -1 

2 h = 

k= I 

car il y a au plus min ((//», - 1) ; (nu — 1)) valeurs propres. Chaque direction principale : 
explique une partie de l’écart à l'indépendance mesurée par le cp 2 . 

Les pourcentages de variance (ou d'inertie) sont donc les X^/cp 2 . 

P. Cibois (1983) a mis en évidence la propriété suivante qui montre que l’analyse des cor¬ 
respondances étudie la structure des écarts à l’indépendance plus que les écarts eux-mêmes ; 1 

Le tableau N* défini par : 


n 


-i= 

’j 


n 


+ Odl 


Un — 



a mêmes marges que N donc même tableau d’indépendance mais des écarts à l’indépendance 
réduits de a (si 0 < a < 1). 

L’analyse des correspondances de N* est alors presque identique à celle de N : mêmes 
graphiques, mêmes pourcentages d’inertie, mêmes contributions. Seul cp 2 et les valeurs pro¬ 
pres ont changé : 

(cp 2 )* = a 2 cp 2 et \*= a 2 X. 

Un utilisateur ne regardant que les pourcentages et non les valeurs absolues ne verrait aucune 
différence. Le problème est alors de savoir si l’on analyse des écarts significatifs ou non. 
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9.2.4*2 Formule de reconstitution 

La formule X = établie au chapitre 7 s’applique ici pour X tableau des 

k 

profils-lignes, c k vecteur des coordonnées des lignes sur l’axe n° k. u k facteur principal (iden¬ 
tique au vecteur des coordonnées des colonnes sur Taxe k divisé par V\t) et M = nD7 l . 


On a alors : 


aj k) b ( j k) n.j 

C " 


mais il faut utiliser tous les facteurs y compris le facteur trivial correspondant à \ = 1, d’où : 


n 


1 +s 

k 



tl s’agit donc bien d’une reconstitution des écarts à l’indépendance à l’aide des coordon¬ 
nées factoriel les des points associés aux profils-lignes et aux profils-colonnes. 


9.2.5 Choix du nombre de valeurs propres en AFC 


L’AFC est une ACP particulière mais on ne peut appliquer exactement les mêmes règles 
car la métrique du khi-deux n’est pas la métrique usuelle. On peut ne retenir que les valeurs 
propres supérieures à leur moyenne comme le fait la règle de Kaiser, mais cette pratique est 
peu usitée. 

La règle du coude reste cependant valide, mais est toujours quelque peu subjective. 


Lorsque la taille de l’échantillon le permet, le critère suivant proposé par E. Malinvaud peut 
se révéler très efficace. U est basé sur la comparaison entre effectifs observés riy et effectifs 
calculés à l’aide de la formule de reconstitution dans le contexte suivant : on fait l’hypothèse 
que les données forment un échantillon tiré aléatoirement et avec équiprobabilité dans une 

population telle que p = p- t .p.j{^ \ + ^ a ik En d’autres termes la loi bidimensionnelle 

sous-jacente est un tableau de rang K. 


Dans ces conditions, si 


- (A’) 

n ; 



est la reconstitution de la 


case ij, à l’aide des K premiers axes, on peut montrer que la quantité 


Sa = 2 


‘J 


Qijj - nf-)' 

n i. n .j 

n 


suit asymptotiquement une loi du x 2 à (p — K — 1) (q - K — 1) degrés de liberté. Il s’agit 
donc d’une généralisation du test d’écart à l’indépendance qui correspond au cas K = 0. 

On trouve sans difficulté que Q K se calcule à l’aide des valeurs propres et est égal à n fois 
l’inertie au delà de la dimension K : 


Qk ~~ k| X-2 ' ^-A') — ^-a' 4-2 ~b “ 4 1 + A.,.) 

OÙ r = tnin(p — 1 ; q - 1) 
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On peut donc tester successivement les valeurs de K depuis K = 0 (hypothèse d’indépen¬ 
dance), jusqu’au moment où on ne peut plus rejeter l’ajustement. : 

Les conditions d’application sont celles du test du khi-deux : effectifs théoriques au moins 
égaux à 5. Cependant si n est très élevé le test conduit à conserver un trop grand nombre de 
valeurs propres : on ne l’emploiera que pour n inferieur à quelques milliers. :|g§ 

9.3 UN EXEMPLE 

■N 

Nous avons soumis à l’analyse des correspondances (logiciel SPAD Version 5.6) 
le tableau de contingence sur les vacances des français en 1999 déjà étudié dans le 
chapitre 6. 

Le tableau des valeurs propres montre clairement que deux axes suffisent à décrire la 
liaison entre la catégorie socio-professionnelle et le mode d’hébergement : 


SOMME DES VALEURS PROPRES . . . 0.1073 
HISTOGRAMME DES 7 PREMIERES VALEURS PROPRES 


NUMERO 

VALEUR 

PROPRE 

POURCENT. 

POURCENT. 

CUMULE 


1 

0.0657 

61.24 

61.24 

'k-k-k+r'ieJr-k-k-k-ir-Alr-ttir-k'k-H-k-r-klt-k'kir-k-kir-tf + it'k'/cirir 

2 

0.0254 

23.70 

84.94 

+ ir-k'k-k-X-kJr'kT/t'ir-kr-A:1ir1(-jtic-kir 

3 

0.0081 

7.55 

92.49 

*••*•**•******• 

4 

0.0037 

3.46 

95.95 


5 

0.0028 

2.60 

98.55 


6 

0.0014 

1.29 

99.84 

★ ★ 

7 

0.0002 

0.16 

100.00 

★ 

__ 



____ 

_ „ ___ , _ 


Ici le test de Malinvaud est inopérant car n — 18352 est trop élevé. 

Les tableaux suivants permettent de repérer les modalités ayant des contributions 
significatives : Sur l’axe 1 Hôtel, Résidence secondaire liés avec retraités et opposés à 
tente et ouvrier. L’axe 2 est caractérisé par Résidence secondaire de parents et amis et 
cadres. 

On retrouve des associations détectées par la décomposition (figure 9.3) du khi-deux, mais 
le graphique permet de les illustrer de manière évocatrice. 

Rappelons que l’interprétation des proximités sur le graphique doit respecter certains 
principes : si deux modalités d’une même variable sont proches et bien représentées, cela 
signifie que leurs profils sont semblables (c’est le cas d'ouvriers et employés par exemple qui 
fréquentent les mêmes lieux dans des proportions proches). Par contre la proximité entre 
une modalité d’une variable et une modalité de l’autre, comme profession intermédiaire et 
village de vacances , est plus délicate à interpréter : ce que l’on peut seulement dire c’est que 
le barycentre des 3787 séjours des professions intermédiaires est proche du barycentre des 
686 séjours en village de vacances (voir plus loin). 










MODES D'HEBERGEMENT 


COORDONNEES 


COSINUS CARRES 


2 

4 5 

1 

2 

4 



CATEGORIES 

SOCIO-PROFESSIONNELLES 


IDENTIFICATEUR P.REL, DISTO 

Agriculteurs 1.27 0.27 
Artisans, 6.15 0.00 
Cadres, 23.47 0.07 
Prof. interin. 20.'13 0.01 
Employés 10.57 0.08 
Ouvriers 16.5 S 0.14 
Retraités 19.41 0.20 
Autres inactifs 2.12 0.40 
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Dans la figure 9.3. les points ont des tailles proportionnelles à leurs fréqences marginales. 


Facteur 2 


Retraités 


Résidence Secondaire 

0.15 


-0.15 


-0.30 


•0.50 


Hôtel 


Artisans, commerçants, chefs d'entreprise 


Cadres et professions intellectuelles supérieures 


-Caravane - 

A 

Ouvriers 

m 

Résidence Principale Parents Amis 

Employés 

gA 

Village de Vacances 


Autres inactifs 


Professions intermédiaires 
A Location 

Agriculteurs a Auberge de Jeunesse 


M 

Tente 


-0.25 Résidence Secondaire Parents Amis 0.25 


Figure 9.3 


0.50 
Facteur 1 


9.4 ANALYSE CANONIQUE DE DEUX VARIABLES 
QUALITATIVES, JUSTIFICATION 
DE LA REPRÉSENTATION SIMULTANÉE 


9.4.1 Mise sous forme disjonctive de données qualitatives 

Le tableau de contingence N ne constitue pas en réalité le tableau de données brutes : il 
est le résultat d’un traitement élémentaire (tri croisé) de données relevées sur n individus 
du type : (,v‘ ; xj) pour i — 1, 2, . . ., n où xj et xj sont les numéros des catégories des 
variables qualitatives c£ x et âV La numérotation des catégories est arbitraire et on introduit 
alors la représentation suivante comme au paragraphe 6.4.3 : 

A une variable qualitative âfà in catégories on associe les m variables indicatrices de 
ses catégories : E 1 . fl 2 , . . . U'". IL v (i) vaut 1 si x est dans la catégorie /, 0 sinon. Pour 
un individu i une seule des ni indicatrices vaut i les m — 1 autres valent 0. 


Pour n individus la variable âf peut être représentée par le tableau de données 
binaires X suivant : 


1 


1 

1 


o 


0 


X = • 


2 . . . m 
0 0 . . . 0 

1 0 . . . 0 


n 


0 0 


0 
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On dit que âf a été mise sous forme disjonctive. 

m 

On remarque que ^ l' 1 = 1 donc que les m colonnes de X ont pour somme le 

a- î 

vecteur 1. 

- A deux variables qualitatives if, et if 2 correspondent donc deux matrices X, et X 2 à 
72 lignes et respectivement et m 2 colonnes. 

On vérifie alors les formules suivantes liant X, et X 2 au tableau de contingence N 
et aux deux matrices d’effectifs marginaux D, et D 2 : 

n =x; x 2 

D| “ X[ X, 

D 2 = X 2 X 2 

En effet, faire le produit scalaire de deux vecteurs d’indicatrices revient à compter 
le nombre de co-occurrences. 

9.4.2 Quantifications de variables qualitatives 

Si à chaque catégorie d’une variable qualitative ifon associe une valeur numérique, on 
transforme ifen une variable discrète à m valeurs : on réalise ainsi une quantification de if 
en une variable numérique x (certains auteurs parlent de « codage »). Il existe une infinité de 
quantifications possibles dont la structure est celle d’un sous-espace vectoriel de l’espace des 
variables. 

Si cij est la valeur numérique associée à la catégorie j, on a : 


.v 


I 


7=1 


a j H 7 


Une quantification n’est donc qu’une combinaison linéaire des variables indicatrices. 

Pour l’ensemble des n individus on a : 


ni 

Xj = y, a ; Ho 


7=' 


«i 

Ut 


soit si a = 


a 


m 


x = Xa 

L’ensemble des x est donc le sous-espace W engendré par les combinaisons linéaires des 
colonnes de X. 
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9.4.3 Analyse canonique de deux groupes d’indicatrices 

L’étude de lu dépendance entre SL\ et X 2 est donc ce *^ e des relations entre les deux groupes 
de variables indicatrices associées. On peut donc appliquer l’analyse canonique étudiée au 
chapitre précédent. 

Les deux tableaux de données à analyser sont les tableaux disjonctifs X, et X 2 . On 
constate immédiatement que les deux espaces IL, et W 2 engendrés par les colonnes de 
ces tableaux ont en commun le vecteur 1 qui est le vecteur somme des colonnes de X, 
ou de X 2 (donc dim (W, D VV : ) 5: 1). Les variables canoniques autres que 1 formant des 
systèmes D-orthonormés de W t et W 2 , sont donc centrées, car elles sont orthogonales au 
vecteur 1. 

En supposant ici que les n individus ont mêmes poids 1 / n , avec les notations du chapitre 8 
on a : 

V„ =-x;x, =-d, 

il n 

v,, = -x;x, = - D-» 

n n 

v P = -x; x, = -n 

n ~ n 

V,, = -N' 

n 

Les facteurs canoniques du groupe 1 sont les vecteurs propres de Vfj'VpV^'Vii c’est-à- 
dire de Dp'ND J'N' : ce sont donc les composantes principales de l’ACP des profils-lignes 
à un facteur multiplicatif près. 

De même les facteurs canoniques du groupe 2 sont les vecteurs propres de Dp'N'Df'N 
et fournissent les coordonnées des profils-colonnes sur les axes principaux. Les valeurs pro¬ 
pres X de l’analyse des correspondances sont donc les carrés des coefficients de corrélation 
canonique (ce qui prouve que X :£ 1 ) et la valeur propre triviale X = 1 correspond au fait que 
W, et W 2 ont 1 dans leur intersection. 

Les facteurs canoniques donnent des combinaisons linéaires des variables indicatrices, 
donc des quantifications de et C X 2 : on peut interpréter L’analyse des correspondances 
comme la recherche d’une transformation simultanée de et X 2 en variables numériques 
telles que leur coefficient de corrélation linéaire soit maximal. Cette présentation plus 
connue des statisticiens anglophones est attribuée à Fisher, elle remonte en fait à des travaux 
de Hirschfeld, alias H.O. Hartley, de 1936. 

Les valeurs numériques optimales à attribuer aux catégories sont donc leurs coor¬ 
données sur le premier axe de l’analyse des correspondances. Si l’on réordonne lignes 
et colonnes du tableau de contingence N selon l’ordre des points sur le premier axe 
principal on obtient un tableau tel que les termes « diagonaux » aient des effectifs 
maximaux. 

Les formules de transition sont identiques à celles permettant de passer des facteurs 
canoniques d’un groupe à ceux de l’autre groupe. 
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Il n'est donc pas nécessaire dans ce contexte d’introduire la métrique du x 2 et on voit que 
les catégories des deux variables âf, et $f 2 sont traitées de la même façon en tant qu’éléments 
de R” grâce aux variables indicatrices ce qui justifie le fait de les représenter simultanément 
sur les mêmes graphiques. 

Les représentations graphiques de l’analyse canonique (cercle des corrélations) sont cepen¬ 
dant ici inadéquates car la notion de corrélation avec une variable indicatrice n’a guère de sens : 
on se contentera de représenter chaque catégorie par ses « codages » successifs sur les axes. 

9.4.4 Représentation simultanée optimale 
des (m, + m 2 ) catégories d’individus 

Les catégories des variables qualitatives et SC 2 définissent des sous-groupes d’individus 
d’effectifs (i = 1,2... .,/«,) et iij (j = 1, 2, . . ni 2 ). Si l’on dispose d’une variable 

numérique z de moyenne nulle représentant les coordonnées des n individus sur un axe 
on représentera la catégorie i de cl j par un point dont la coordonnée ci, est la moyenne des 
coordonnées des n L individus de la catégorie en question : 

ch = — É Z k ^(k) = — zV, 

'L.*= i «/. 

où x', est la i cmc colonne de x,. 

On en déduit que le vecteur a renfermant les coordonnées des m, catégories de X, est : 

a = (XJX|) _ 1 X[ z = Df'XJz 


de même pour les rn 2 catégories de X 2 : 


b = Dj‘x;z 

La variable z est d’autant plus intéressante pour X, qu’elle permet de bien séparer les a h 

1 , 

c’est-à-dire que la variance - a D,a est plus grande. Le maximum de cette variance est 

n 

obtenu si tous les individus appartenant à une même catégorie de $j ont la même valeur 
de z. 

Cherchons alors la variable z et les coordonnées a et b telles que en moyenne a'D,a 
et b'D 2 b soient maximales : on aura alors en un certain sens une représentation simultanée 
optimale des catégories des deux variables sur un axe. 

Comme a'D, a = z'X, (X[ X ,) -1 X,'z = z'A, z où A, est le projecteur sur Vf, ; et 
b'D 2 b = z'A 2 z, le maximum de ^ [a'D, a + b'D 2 b] s’obtient lorsque ~ [z'(A, + A 2 )z] est 
maximal. En supposant l 7 (z) fixé ce maximum est atteint pour z vecteur propre de 
-(A, + A : ) : 


(A, + A 2 )z = 2jiz 



216 
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SI 

:S 

A 2 z - X : Dj' X 2 z = X 2 b il vient: 


X, a 4- X 2 b = 2jjlz 

soit en prémultipliant les deux membres de cette équation par DJ -1 X] : 

a + Dr'X;X 2 b = 2p.a 

soit : a + Dp 1 Nb = 2p.a 

et en prémultipliant par DT 1 X 2 : 

D^T 1 X 2 X, a + b = 2|xb 

ou Df 1 N'a + b = 2pLb 


il vient alors : 


f Dr’Nb = (2(JL — 1 )a 
[DT 1 N'a = (2|x - l)b 


On reconnaît les formules de transition et par substitution on a : 


[Df’NDj'N'a = (2(jl - l) 2 a 
[DT 1 N'Df 1 Nb = (2p. - 1 ) 2 b 

Ce sont les équations de l’analyse factorielle des correspondances avec (2jjl — 1 ) 2 = \. 

Remarquons que l’on aurait pu appliquer directement les résultats du paragraphe S.3.1 du 
chapitre précédent : z est alors le compromis ù un facteur près des deux variables canoniques 
£ et iq. 

Les coordonnées des points catégories données par le premier axe de l’analyse des corres¬ 
pondances sont donc optimales ; les axes suivants correspondent au choix d’autres variables z 
orthogonales aux précédentes. 

La signification réelle de la représentation simultanée est donc celle-ci : les points repré¬ 
sentatifs des catégories des deux variables sont les barycentres des groupes d’indivi¬ 
dus qu’elles définissent. 

Les proximités entre points représentatifs doivent être interprétées comme des proximités 
entre moyennes : pour deux catégories i et /' d’une même variable cela entraîne une proximité 
de leurs profils. Pour deux catégories / et j l’une de ÏC X l’autre de $? 2 l’interprétation est plus 
délicate. 

On peut également représenter sur le graphique les cases du tableau de contingence : tout 
individu de la catégorie i de et j de â? 2 a P our coordonnée z sur un axe : 

ï = tr- («; + bj) = T7~r (a ' + b i ) 

2m- 1 + 


d’après la formule X ( a + X 2 b = 2|ülz. 
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9.4.5 La méthode des moyennes réciproques 

La présentation suivante connue sous le nom de reciprocal ave rci gin g ou de dual scaling 
éclaire également la représentation simultanée de l’analyse des correspondances. 

Supposons que l’on place sur un axe les catégories de la variable î(\ comme des points de 
coordonnées a h Par exemple les CSP dans le cas étudié précédemment : 

CSP 1 CSP 2 _ CSP/;;, 

0 

Pour représenter une catégorie j de l’autre variable 2C 2 , ici le mode d’hébergement, il sem¬ 
ble logique de la représenter comme le barycentre des catégories professionnelles avec pour 
coefficients les importances relatives des diverses CSP dans le mode d’hébergement en ques¬ 
tion : 

"'i . 

. b: — — u, soit b = D^'N'a 

L’idéal serait que la réciproque soit vraie, c’est-à-dire que l’on puisse représenter les 
catégories de âij comme barycentres des catégories de âf 2 : 

a = Df’Nb 

La simultanéité de ces deux relations est impossible : on cherchera alors une représentation 
barycentrique simultanée approchée avec : 

faa = Df’Nb 
[ctb = DJ 1 N'a 

où a est le plus grand possible car a < 1. On retrouve alors les équations de l’analyse des 
correspondances avec a = 

L’algorithme consistant à partir d’un vecteur a n arbitraire, à en déduire b (l) = D7 1 N'a° 
puis a (l> = Df 1 Nb n) , etc., avec normalisation à chaque étape jusqu’à convergence fournit en 
général la première solution de l’analyse des correspondances relative à 

9.4.6 Conclusion 

L’analyse des correspondances est la méthode privilégiée d’étude des relations entre deux 
variables qualitatives et l’une de ses principales propriétés est la faculté de représenter simul¬ 
tanément lignes et colonnes d’un tableau de contingence. Si en théorie elle ne s’applique 
qu’à des tableaux de contingence, elle peut être étendue moyennant certaines précautions à 
d’autres types de tableaux comme le prouvera le chapitre suivant. 





L’analyse des 

correspondances 

multiples 


L’analyse des correspondances multiples (ACM) est une technique de description de 
données qualitatives : on considère ici n individus décrits par p variables ck.‘ |, i'J (^. . ., p a 
m\, ni 2 ,. ■ ., in p catégories. Cette méthode est particulièrement bien adaptée à l’exploration 
d’enquêtes où les questions sont à réponses multiples. 

Sur le plan formel il s’agit d’une simple application de l’analyse des correspondances au 
tableau disjonctif des m { + m 2 + • • • + in p indicatrices des catégories. Cette méthode pos¬ 
sède cependant des propriétés qui la relient à d’autres méthodes statistiques et lui donnent 
son statut particulier et en font l’équivalent de l’analyse en composantes principales pour des 
variables qualitatives. 


10.1 PRÉSENTATION FORMELLE 
10.1. B Données et notations 

Chaque individu est décrit par les numéros des catégories des p variables auxquelles 
il appartient. Ces données brutes se présentent donc sous forme d’un tableau à n lignes et 
p colonnes. Les éléments de ce tableau sont des codes arbitraires sur lesquels aucune opéra¬ 
tion arithmétique n’est licite. La forme mathématique utile pour les calculs est alors 
le tableau disjonctif des indicatrices des p variables obtenu en juxtaposant les p tableaux 
d’indicatrices de chaque variable âj. 

Ainsi le tableau brut suivant : 
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correspondant a 5 observations de trois variables â? 2 , 2t\ à 3, 2. 3 catégories respective¬ 
ment engendre le tableau disjonctif X à 5 lignes et 8 colonnes : 


X = (X,|X,|X 3 ) 


"l 

0 

0 

0 

1 

0 

0 

f 

0 

1 

0 

1 

0 

1 

0 

0 

0 

1 

0 

0 

1 

0 

i 

0 

0 

0 

1 

0 

1 

1 

0 

0 

0 

0 

1 

1 

0 

0 

1 

0 


La somme des éléments de chaque ligne de X est égale à p, nombre de variables. 

La somme des éléments d’une colonne de X donne l’effectif marginal de la catégorie 
correspondante. 

La somme des colonnes de chaque tableau d'indicatrices est égale au vecteur 1 ; le rang 
/’ 

de X est donc — p 4- 1. 

i= i 

On notera D le tableau diagonal des effectifs marginaux des m, + nt 2 + • • • 4- m t catégories : 

0" 

D n- 


D 


D, 


D, 


10.1.2 Une propriété remarquable pour p = 2 

Pour deux variables qualitatives 2F, et ?l\ à m, et m 2 modalités, l'analyse facto¬ 
rielle des correspondances du tableau disjonctif X — (X,|X 2 ) est équivalente à l'ana¬ 
lyse factorielle des correspondances (AFC) du tableau de contingence N = X',X 2 . 

Cette propriété est à l’origine du nom de la méthode étudiée ici. 


10.1.2.1 AFC formelle du tableau disjonctif 

L’AFC d’un tableau X revient à chercher les valeurs propres et les vecteurs propres du 
produit des deux tableaux de profils associés à X. 

Le tableau des profils-lignes vaut ici X/2. 

Le tableau des profils des colonnes XD~' est tel que : 

XD" 1 = (X,|X 2 ) 


Dr 1 o 

0 DJ 1 
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Les coordonnées des profils des colonnes sont les vecteurs propres de : 


X'X 


(XD~‘)' -X = -D-'X'X 

9 9 


x;x, 

X[X 2 ~ 


D, 

N~ 

x;x, 

X( X 2 _ 


_N' 

D,_ 


L’équation donnant les m, + w 2 coordonnées des profils des colonnes est, en notant a les 
m premières composantes et b les w 2 suivantes : 


Dr 1 

0 “ 

"d, 

N‘ 

a 


a 

0 

Dj' 

JS' 

d 2 _ 

b 

= P 

b 


l m< 

Df'A 

a 


a 

_Dj‘N' 

A . 

b 

= 2p 

A 


d’où les équations : 

fa + Df’Nb = 2|ia jDf'Nb = (2*x - l)a 

[Df‘N'a + b = 2pb ° U [Dj’N'a = (2*x - l)b 

On reconnaît les équations de l’analyse des correspondances de N (formules de transition) 
et par substitution : 


[Dj'N'Df'Nb = (2p ~ l) 2 b 
lür'NDT’N'a = (2fi - l) 2 a 


avec \ = (2p — l) 2 . 

Les coordonnées des + m 2 points colonnes de X sont donc identiques (à un coefficient 
de proportionnalité près) aux coordonnées des lignes et des colonnes de N dans la représen¬ 
tation simultanée. 

10.1.2.2 Propriétés particulières des valeurs propres et vecteurs propres 

Si n > m, + in 2 , l’AFC du tableau X va aboutir à plus de facteurs que l’AFC de N. 

D’où viennent les solutions supplémentaires? Notons tout d’abord l’existence d’une 
solution triviale supplémentaire correspondant à une valeur propre nulle puisque les 
colonnes de X sont liées par une relation linéaire (la somme des colonnes de X, est égale 
à la somme des colonnes de X 2 ). Il y a donc /;?, + m 2 — 2 valeurs propres non triviale¬ 
ment nulles ou égales à 1. 

Comme \ = (2p. — l) 2 , à chaque \ correspondent deux valeurs propres : 

i +Vx î -Vx 

p = —-— et p = —-— 
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correspondant aux vecteurs propres et ^ soit, si m, < nt 2 , 2(w, — 1) valeurs propres. 

Il y a en plus n, 2 - m, vecteurs propres du type (“) associés à la valeur propre 1/2 qui est donc 
de multiplicité m 2 — m,. 

Seules les (/;/, - 1 ) valeurs propres supérieures à 1/2 ont une signification. 


Comme : 


l’inertie totale est égale à 


Trace 


K 

Do-'N' 


D/'N 

I,„ 


= m i + /7i p 


m i 4- 2Up 


^ - 1. 


Bien que fournissant des axes identiques à l’analyse des correspondances de N, tes 
inerties associées et les parts d’inertie sont très différentes et ne peuvent être interprétées 
sans précaution. 

Ainsi l’analyse des correspondances sur le tableau disjonctif associé au tableau étudié au 
chapitre précédent conduit aux résultats suivants : (/?i| = 9 et m 2 — 8) : 


fi, = 0.628 8.37% 

|x 2 = 0.580 7.77% 

|i 3 - 0.545 7.27% 

2^ = 7.5 = ^4^-l 


\, = 0.0657 61.24% 
\ 2 = 0.0254 23.7% 
= 0.0081 7.55% 

7 

= 0.1073 

i= I 


Les valeurs propres qui étaient très séparées dans l’AFC de N, ne le sont plus dans l’AFC de X. 

10.1.3 Le cas général p > 2 

La propriété précédente conduit à l’extension à p variables qui consiste à effectuer une 
analyse des correspondances sur le tableau disjonctif X — (X, |X 2 |. . X fI ) pour obtenir 
ainsi une représentation simultanée des m, 4- m 2 4- • • • 4- m p catégories comme points 
d’un espace de faible dimension. 


/ 0.1.3.1 Coordonnées des catégories 


On notera a 


le vecteur à ^ m > composantes des coordonnées factorielles des caté- 

i= i 


gories de toutes les variables sur un axe. 
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pour chaque valeur propre |jl on a donc : 

-D~'X'Xa = pia 
P 


"V 


0 ■ 

’xjx, 

x; x 2 . 

■ •x[x; 

‘ai" 


M 


DJ 1 


x;x, 

Xi X 2 . 


a 2 

= fL 

a, 

0 


V- 

x;x. 


■ x;x„ _ 

- a />. 


-V 


On note B le tableau dont les blocs sont les X'X y . Ce tableau, dit tableau de Burt, est 
un super-tableau de contingence puisque chaque bloc X-X - est le tableau de contingence 
croisant St) avec $}. 

L’équation des coordonnées des catégories est donc : 


-D ’Ba = jxa 
P 


On prendra comme convention de normalisation : 


1 

— a Da = (x 
np 


car la somme des éléments de X vaut np. 


10.1.3.2 Coordonnées des individus 

Les lignes de X représentant les individus, les coordonnées des points-lignes s’obtien¬ 
nent en diagonalisant le produit, effectué dans l’ordre inverse, des deux tableaux des 
profils. Soit z le vecteur à n composantes des coordonnées des n individus sur un axe 
factoriel. On a : 

-XD'X'z = |xz 

£ _ 

En développant par blocs XD -! X' il vient : 


-(X,|x : |...|x„) 

P 


'WX,)-' 0 • 

r x n 

(x;x 2 r' 

x; 

o (x;,x,,)-'. 

U J 


Z = |JtZ 
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1 / r 

soit"! XX/(XÎX f -) -l X; 

P Vi=i 

X,(X) X,)~'X', est le projecteur orthogonal A, sur l’espace engendré par les combinaisons 
linéaires des indicatrices des catégories de E£ t . 

1 
1 


1 

Les coordonnées des individus sur un axe sont donc de moyenne nulle. 

La condition habituelle de normalisation est : 

1 - I 

" 24 = -z'z = M- 

n , = | n 

10.1.3.3 Formules de transition et relations barycentriques 

D’après les résultats du chapitre précédent on a : 

et 

La première formule s’interprète comme suit : 

- 4 1/ VjÜL près la coordonnée d’un individu est égale à la moyenne arithmétique 

simple des coordonnées des catégories auxquelles il appartient. 

/> 

En effet Xa = Y^XjUj. Pour un individu i les seuls termes non nuis sont ceux 

j= i 

correspondant aux catégories possédées (une par variable). 

La deuxième formule montre que : 

- 4 1/ V|ül près la coordonnée d’une catégorie j est égale à la moyenne arith¬ 
métique des coordonnées des nj individus de cette catégorie. 

Les points représentatifs des catégories dans les graphiques factoriels doivent donc être 
considérés comme des barycentres : les proximités devront être interprétées en terme de 
proximités entre points moyens de groupes d’individus. 




étant la solution triviale associée à |x = 1 les autres soludons lui sont orthogonales. 


1 ’’ 

z = \±z = - ^AjZ. 
P ;=i 
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On a à 1 /Vp près, la propriété des « moyennes réciproques » qui est à l’origine de certai¬ 
nes présentations de l’analyse des correspondances multiples {dual scaling). 

% étant une variable de moyenne nulle il s’ensuit que pour chaque variable St) les 
coordonnées de ses catégories (pondérées par les effectifs) sont de moyenne nulle. 

Il est possible de représenter simultanément individus et catégories des variables St) car 
les points représentatifs des catégories sont barycentres de groupes d’individus. 

Nous conseillons toutefois d’utiliser le système suivant de coordonnées afin de conserver 
la propriété barycentrique : 

z de variance p et a = D'X'z = Vpa 


10.1.3.4 Propriétés des voleurs propres 

i> 

Le rang de X étant 2 m / — p + 1, si n > Dm h le nombre de valeurs propres non trivia¬ 
le i 

p 

lement égales à 0 ou 1 est 2 /,i ; — p = q. 

/= i 

La somme des valeurs propres non triviales vaut : 


‘1 

i p 

2pi 

= - 2 m i ~ 1 

i=i 

p ,=i 


L’inertie est donc égale au nombre moyen de catégories diminué d’une unité : c’est une 
quantité qui ne dépend pas des liaisons entre les variables et n’a donc aucune signification 
statistique. 

La moyenne des q valeurs propres vaut 1 /p. Cette quantité peut jouer dans une certaine 
mesure le rôle d’un seuil d’élimination pour les valeurs propres inférieures comme nous 
allons le voir. 

La somme des carrés des valeurs propres est liée, elle, à des indices statistiques. 

p 2 étant valeur propre du carré de la matrice à diagonaliser on a : 

1 f = Trace (( J ±A,) _ ) 


d’où : 2 ( p /) 2 = — 2 Trace (A,-) 2 + 22 Trace (A,A ) 

P- P~ 

comme \j = A, : 2(p,) 2 - ~ 2 2 m\ 22 (1 + <Pÿ) “ I 


2(P/) 2 = -42( w 'f 

i=i P i=i 


P i*j 


1 


où cp^ est le cp 2 de K. Pearson du croisement de S£ { avec St). 
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Si les p variables 2C\, 2C p sont indépendantes deux à deux <pj-. = Q ^ 



La moyenne des carrés ne peut être égale au carré de la moyenne que si toutes les valeurs 


propres sont égales. Le cas de l’indépendance correspond donc à p.,- = - V/. s 

' ‘ " ‘ P 1 

On retrouve également cette situation si les données sont recueillies selon un plan 
équilibré où les ni, m 2 . . . in p combinaisons possibles des modalités des sont obser- 
vées avec le même effectif car tous les tableaux croisés XJ Xj ont alors les mêmes 
profils. Pour un tel plan d’expérience l’analyse des correspondances multiples est donc 
inutile. 


10.1.3 .5 AFC du tableau de Burt 

Si l’on soumet le tableau B à une analyse des correspondances on retrouve, à une cons¬ 
tante multiplicative près, les mêmes coordonnées factorielles des catégories. 

Le tableau de Burt étant symétrique les totaux de lignes et de colonnes sont égaux (on 
retrouve p fois les totaux marginaux). 

Le tableau des profils-lignes associées a B est donc (pD) _l B. Le tableau des profils- 
colonnes associé à B est B(pD) -1 . L’AFC de B revient donc à diagonaliser : 


-D “B 

P 


qui conduit aux mêmes vecteurs propres que - D ‘B avec des valeurs propres égales à pr. 

P 


10.2 AUTRES PRÉSENTATIONS 

L’extension formelle du cas p = 2 au cas général ne suffit pas pour conférer un statut 
de méthode statistique à l’analyse des correspondances multiples. Les présentations 
qui suivent, la reliant à d’autres méthodes, y contribuent en apportant des éclairages 
différents. Chacune de ces présentations correspond à une “découverte” indépendante 
de l’ACM. 
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f 0-2.1 Analyse canonique généralisée de p tableaux d’indicatrices 

On sait que l’analyse des correspondances d’un tableau de contingence est une analyse 
canonique particulière, celle des tableaux X, et X 2 . 

Lorsqu’il y a p tableaux d'indicatrices associés à p variables qualitatives îi 2 . 

il est naturel d’utiliser la généralisation de l’analyse canonique étudiée au chapitre 8. 

Celle-ci revient à chercher les vecteurs propres de la somme des opérateurs de projection 
sur les sous-espaces engendrés par les colonnes des X,. 

Au coefficient 1 fp près, les valeurs propres sont donc les mêmes qu’en analyse des 
correspondances multiples. Les composantes z sont donc identiques aux variables auxiliaires 
de la généralisation de Carroll de l’analyse canonique. 

10 .2.2 Un critère d’association maximale 

Puisque l'analyse des correspondances multiples est identique à l'analyse canonique 

p 

généralisée de X h X 2 , . . X ; „ les variables z rendent maximale ; X,-). 

t= i 

Or X/ étant un tableau d’indicatrices, le coefficient de corrélation multiple n’est autre que 
le rapport de corrélation Tjfz/X,) (chapitre 6, paragr. 6.4). 

Les variables z sont donc les variables de variance jx, non corrélées deux à deux 
vérifiant : 


p 

max ^(z/^) 


Si l’on se rappelle qu’en ACP normée, les composantes principales rendaient maximale 

p 

^r : (c ; \ j ) on a ici l’équivalent d’une ACP sur variables qualitatives, la mesure de liaison 

j -• 

étant Tp au lieu de r 2 . 

L’analyse des correspondances multiples revient donc à résumer p variables qualitatives 
par des variables numériques de variance maximale les plus corrélées possible, au sens 
défini précédemment, avec les 

Lorsque les variables âf 2 , . . ., sont dichotomiques {m, = 2) le tableau X possède 
2 p colonnes. 
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Le coefficient de corrélation multiple au carré entre z et X,- est alors égal au carré du 
coefficient de corrélation linéaire simple entre z et l’une des deux indicatrices de I 
puisque la somme des deux indicatrices vaut l. 

I> 2 (z;lk) 

/= î i| 

Dans ce cas l’analyse des correspondances multiples de X revient à effectuer une ACP 
normée, c’est-à-dire sur la matrice de corrélation, sur un tableau à n lignes et p colonnes 
obtenu en ne conservant qu’une indicatrice par variable qualitative. 

10.2.3 Quantification optimale de variables qualitatives 

On retrouve la solution de l’analyse des correspondances multiples, tout au moins 
l’équation du premier facteur, en cherchant à résoudre le problème suivant : transformer 
de façon optimale (selon un critère à définir) chaque variable qualitative à m, modalités en 
une variable discrète à m t valeurs. On sait qu’une telle quantification s’écrit = X ; a,- où 
est la variable numérique obtenue, a, le vecteur des valeurs numériques à attribuer aux 
modalités. 

10.2.3.1 ACP de variables quantifiées 

On cherche ici à obtenir une ACP des ij, qui soit la meilleure possible au sens où la( 
première valeur propre A.| de la matrice de corrélation des est maximale. Ceci revient 
à chercher : 


On a donc : ]£t] 2 (z ; %,) = S ’' 2 ( l 1 ^a) = 

/=i i=i 


or : 


™x t ( maxj ; £,) J 

^i>s:v • \ j—\ / 

max v \z ; = R \z ; XJ) 


!< 

on est donc amené à rechercher le max de R 2 (z ; X ; ). Les « codages » optimaux des 

y= t 

catégories ne sont donc autres que les coordonnées de ces catégories sur le premier axe de 
l’analyse des correspondances multiples de X. 

10.2.3.2 Guttman et l’homogénéité maximale 

En 1941 L. L. Guttman avait abouti aux équations de l’analyse des correspondances 
multiples en résolvant le problème suivant : étant donné un questionnaire à choix multi¬ 
ple à p questions ayant chacune ntj modalités de réponse (une seule réponse possible à 
chaque question), on veut attribuer des notes à chaque modalité de telle sorte que les 
variables numériques ainsi créées ^ soient les plus cohérentes au sens suivant : les 
réponses aux p questions doivent conduire à des notes proches, tout en donnant une note 
globale moyenne la plus dispersée possible. 




/flpaL’analyse des correspondances multiples 


229 


Considérons le tableau n, p des variables Éjy : 


€.. 



notons £ 2 » • • •■< %> ^ es moyennes des différentes lignes : 

1 ’’ 

^7-1 

Supposons, ce qui ne nuit pas à la généralité que chaque § est une variable de moyenne nulle. 
On cherche alors à avoir des mesures les plus homogènes possible en minimisant en 
moyenne la dispersion intra-individuelle. 

1 i‘ 

Pour chaque observation celle-ci vaut- ^ (£/) " £,) 2 donc en moyenne elle vaut : 


i » n _ 

— 1 - &) 2 
«Pi=iy=i 

La variance totale du tableau (i^) étant égale à la moyenne des variances plus la variance 
des moyennes : 

| « V 1 n p __ 1 il _ 

- 2 2(ê 0 ') J = — Ë E(ê« - + - Ert,-) 1 

nP/=U=i np /=1/= , «,= i 


il revient au même de maximiser : 


I " - 
1 

| « /> 

- 2 2(€*) 2 

«P/=l7=l 


~ ^7 a y et I — 2^/ a y ~ Xa 

Pj=l P 


H/= I « \P 


1 . V/l 


- 2 (ü 2 = - - Xa - Xa = — a'X'Xa 
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E(iï> 2 = m = = a}D,aj 


1 /> 11 1 i> 1 

— 2 S(€/y) 2 = — 2 a j D / a y = — a'Da 

»Pj= i ,-=i np ; = , «p 


La quantité critère vaut donc : 


ÿ a,X ' Xa 1 ,'X'Xa 

— a'Da P a ’ Da 

np 

Son maximum est atteint pour a vecteur propre associé à la plus grande valeur propre 

de - D -1 X'X. On retrouve bien le premier facteur de l’ACM de X. 

P 


10.2.4 Approximation d’ACP non linéaire 

Revenons sur le chapitre 7, § 7.6 : pour p variables numériques x 1 , x 2 . x p , l’ACP cher¬ 

che une combinaison linéaire de variance maximale : 


v y,u,x j 


Si l’on veut s’affranchir de la linéarité, on peut chercher des transformations fonctionnel¬ 


les cp 1 (x 1 ).cp / ’(x / ’) des variables telles que R^ ^cp^(x J )J soit maximal. 

Choisissons pour les ip j des fonctions en escalier (constantes par morceaux) ou splines 
de degré 0. On sait que ces fonctions permettent d’approximer n’importe quelle fonction 
numérique. 

Concrètement on découpera l’intervalle de variation de x j en nij classes (fig. 10.1). 



Figure 10.1 
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est une fonction prenant les valeurs a h a 2 . a mj sur les intervalles de découpage ; 

elle s’explicite comme la combinaison linéaire des variables indicatrices des classes du 
découpage, à coefficients a v a 2 . a m . 

Le critère max cp 7 (x J )^| est donc identique au critère max X y a y -j. La solution est 

a jors donnée par la première composante de l’analyse des correspondances multiples du 
tableau X obtenu en découpant en classes chacune des variables numériques. 

La pratique qui consiste à découper en classes des variables numériques, donc à les rendre 
qualitatives, pour ensuite effectuer une analyse des correspondances multiples se justifie par 
le fait qu’il s’agit d’une analyse non linéaire des données. 

Sous réserve d’avoir suffisamment d’observations par classe on peut ainsi visualiser des 
liaisons non linéaires entre variables qui ne seraient pas apparues en ACP ordinaire où l’on 
travaille avec la matrice R des corrélations linéaires. 


10.3 PRATIQUE DE L’ANALYSE 

DES CORRESPONDANCES MULTIPLES 

L’interprétation des résultats d’une ACM se fait grosso-niodo comme en analyse des 
correspondances sur tableau de contingence et comme en ACP. On prendra garde ici au fait 
que les pourcentages d’inertie n’ont qu’un intérêt restreint. La sélection et l’interpréta¬ 
tion des axes factoriels se fera essentiellement à l’aide des contributions des variables 
actives et des valeur-tests associées aux variables supplémentaires. Rappelons une fois 
encore la signification des proximités entre points-colonnes sur un plan factoriel : il 
s’agit d’une proximité, en projection, de points moyens de catégories représentant 
plusieurs individus. 

10.3.1 Les contributions 

10.3. IJ Contributions à un axe factoriel 

Une catégorie d’effectif n y - qui a une coordonnée cij sur un axe factoriel fournit une 
contribution (CTR) égale a : 


— (fl/ 

CTR( j) = — - 

P 

On repérera les modalités intéressantes qui ont une contribution supérieure à leur poids —. 

np 

En correspondances multiples, les modalités d’une même variable 2t) ont des contribu¬ 
tions qui peuvent être cumulées. 
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On définit la contribution cumulée de Si] comme : 

I n . 

CTRffî = SCTR ( 7 ) = (*;) 2 

y= i I 1 y= i n P 

a, étant à Vjjl près la moyenne des coordonnées des individus de la catégorie j de St] lh les 
contributions cumulées sont reliées au rapport de corrélation entre la composante z de 
variance pi et la variable St] par : 

V-(z m = PM- CTR(â?,) 

1 1 p 

Remarquons que rp < 1 entraîne CTR(â^) < — et que - 2'n : (z/^) - p,. 

PM- P ,= i 

On utilise comme en ACP les contributions des individus - (",)-/pu et comme en ACP et en 

n 

AFC les cosinus carrés avec les axes pour juger de la qualité d’une projection. 

On pourra utiliser ici le résultat donné au chapitre 7 : un individu aura une contribution 
significative si celle-ci dépasse 3.84 fois son poids. 


10.3.1.2 Contributions à l'inertie totale 

1 n 

L’inertie totale vaut, rappelons-le, - — I. Le nuage des profils-colonnes a pour centre 

P ;= i 

de gravité le vecteur de R ' 1 dont toutes les composantes valent 1 jn : en effet la somme des 
colonnes du tableau disjonctif est le vecteur constant dont toutes les composantes valent p. 

La métrique du x ? pour le nuage des profils-colonnes est donc la métrique diagonale ;il„ 
(diagonale des inverses des fréquences marginales). 

Le carré de distance d’un point catégorie j au centre de gravité g vaut donc : 

d\\ ; g) = ij/nj “ l /«) 2 


où Xjj est le terme courant de la/ mc colonne du tableau disjonctif. Comme .y,- y = 0 ou 1 on a 
xi = X;j d’où : 


^ 2 (.i,g) = «S Ht 


/= i 



comme 2 -v= ry il vient : 


d 2 (j, g) = ~ - 1 


Une catégorie est donc d’autant plus éloignée du centre que son effectif est faible. 
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Son inertie vaut - 1 cl 2 ( j, g) 
np 



1 

P ' 



La contribution d’une modalité à l’inertie est fonction décroissante de son effectif. 
Il convient donc d’éviter de travailler avec des catégories d’effectif trop faible, qui risquent 
de perturber les résultats de l’analyse (absence de robustesse). 

L’inertie totale d’une variable, /(&’’), vaut : 


n 


m, / 

2(i - ^ 
j'= A n / P 


1 (/», - 1 ) 


M = 


(///,• - 1) 


sa contribution est donc : 


!{%i) nij - 1 

- 1 2( /?, i “ 0 

P ■ i 


Elle est d’autant plus importante que son nombre de catégories est élevé. On recommande 
généralement pour cette raison d’éviter des disparités trop grandes entre les nombres de 
catégories des variables Si), lorsque l’on a le choix du découpage. 


10.3.2 L’usage de variables supplémentaires 

Déjà évoqué lors de l’étude de l’ACP, l’usage de variables supplémentaires est très cou¬ 
rant en analyse des correspondances multiples. 

Rappelons que les variables actives sont celles qui déterminent les axes. Les variables 
supplémentaires ne participent pas au calcul des valeurs propres et vecteurs propres mais 
peuvent être représentées sur les plans factoriels selon le principe barycentrique pour les 
variables qualitatives : chaque catégorie est le point-moyen d’un groupe d’individus. 

Pour les catégories des variables suplémentaires qualitatives on calcule comme en ACP 
des valeurs-test mesurant en nombre d’écart-type l’éloignement de l’origine. 

Enfin il est possible de mettre en variables supplémentaires les variables numériques qui 
ne peuvent pas être actives (à moins de les rendre qualitatives par découpage en classes) : 
Elles peuvent être positionnées dans un cercle de corrélation avec pour coordonnées les cor¬ 
rélations avec les composantes de l’analyse. 

Soit cij la coordonnée d’une catégorie d’une variable supplémentaire, d’effectif ry, sur un 
certain axe d’inertie égale à |ji : 
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On sait que si les >y individus de cette catégorie étaient pris au hasard parmi les n 
individus de l’échantillon (sans remise) la moyenne des coordonnées des ty individus 
concernés serait une variable aléatoire centrée (puisque par construction les composantes 

Il U — 11; 

z sont de moyenne nulle) et de variance égale à- { (voir chapitre 7). 

7 y n — 1 

Avec les conventions habituelles de la représentation simultanée cy est égale à 1/V(Ï fois 

la moyenne des coordonnées, la quantité a .VtT Al-est donc la valeur-test. 

1 Y 77 — llj 

Le calcul des valeurs-test n’est légitime que pour des variables supplémentaires n’ayant pas 
servi à la détermination des axes. Leur utilisation pour des variables actives ne doit être consi¬ 
dérée qu’à titre indicatif : ies valeurs-test pour les variables actives sout en général très élevées, 
ce qui est normal car les variables actives déterminent les axes. 


10.4 UN EXEMPLE : LES RACES CANINES 


Les données communiquées par M. Tenenhaus (tableau 10.1) décrivent les caractéris¬ 
tiques de 27 races de chiens au moyen de variables qualitatives, les 6 premières ont été 
considérées comme actives, la septième, « fonction », comme supplémentaire : ses trois 
modalités sont « compagnie » « chasse » « utilité ». 

On remarquera que les paires d’individus (5, 26) (8, 22) (11, 19) ont des valeurs iden¬ 
tiques pour les 7 variables, il y aura donc des observations confondues. 


Le nombre de modalités actives est 16, ce qui conduit à 10 facteurs et à une inertie totale 
16 5 

de —- 1 = - — 1.667, le critère \l> \/p conduit à ne retenir que trois axes, le diagramme 

6 3 


des valeurs propres montre cependant une chute après fx 2 . On interprétera donc uniquement 
les deux premiers axes (tableau 10.2) 1 . 

L’axe 1 oppose (à droite) les chiens de petite taille, affectueux, qui coïncident avec les 
chiens de compagnie (valeur-test 4.06), aux chiens de grande taille, très rapides et agressifs 
(fonction « utilité »). L’axe 2 oppose (en bas) les chiens de chasse, de taille moyenne, très 
intelligents à des chiens lents et peu intelligents. 

Le tableau 10.3 est le tableau de Burt qui résume les liaisons deux à deux entre les 6 varia¬ 
bles actives. 


Le tableau 10.4 permet de repérer les modalités contribuant fortement à l’inertie des axes 
et sa lecture doit être complétée par celle du tableau 10.5 qui fournit les valeurs tests. 

Le tableau 10.6 permet d’apprécier la qualité de la représentation graphique (fig. 10.2). 


I ^Les calculs ont été effectués à l'aide du logiciel SPAD, version 5.6. 



Tableau 10.1 
Tableau Disjonctif 

] 2 3 4 5 6 7 




— 

Taille 

+ 

4- + 

— 

Poids 

+ 

+ + 

— 

Vélocité 

+ + + 

Intelligence 

— 4- 

Afléction 

- -b 

Agressivité 
— -f 

Fonction 

Co. Ch. Ut. 

L 

Beauceron 

0 

0 

1 

0 

1 

0 

0 

0 

1 

0 

0 

1 

0 

l 

0 

1 

0 

0 

1 

2 

Basset 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

1 

0 

3 

Berger Allemand 

0 

0 

1 

0 

1 

0 

0 

0 

1 

0 

0 

1 

0 

1 

0 

1 

0 

0 

1 

4 

Boxer 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

1 

1 

0 

0 

5 

Bull-Dog 

1 

0 

0 

1 

0 

0 

1 

0 

0 

0 

1 

0 

0 

1 

1 

0 

1 

0 

0 

6 

Bull-Mastiff 

0 

0 

1 

0 

0 

1 

1 

0 

0 

0 

0 

I 

1 

0 

0 

1 

0 

0 

I 

7 

Caniche 

1 

0 

0 

1 

0 

0 

0 

1 

0 

0 

0 

I 

0 

1 

1 

0 

1 

0 

0 

8 

Chihuahua 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

0 

I 

1 

0 

1 

0 

0 

9 

Cocker 

0 

1 

0 

1 

0 

0 

1 

0 

0 

0 

1 

0 

0 

1 

0 

I 

1 

0 

0 

10 

Colley 

0 

0 

1 

0 

! 

0 

0 

0 

1 

0 

1 

0 

0 

I 

1 

0 

1 

0 

0 

11 

Dalmatien 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

1 

0 

1 

0 

0 

12 

Dobermann 

0 

0 

1 

0 

1 

0 

0 

0 

1 

0 

0 

1 

1 

0 

0 

1 

0 

0 

1 

13 

Dogue Allemand 

0 

0 

1 

0 

0 

1 

0 

0 

1 

I 

0 

0 

i 

0 

0 

i 

0 

0 

1 

14 

Épagneul Breton 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

0 

1 

0 

1 

1 

0 

0 

1 

0 

15 

Épagneul Français 

0 

0 

1 

0 

1 

0 

0 

1 

0 

0 

1 

0 

1 

0 

1 

0 

0 

1 

0 

16 

Fox-Hound 

0 

0 

1 

0 

1 

0 

0 

0 

1 

1 

0 

0 

i 

0 

0 

1 

0 

1 

0 

17 

Fox-Terrier 

1 

0 

0 

1 

0 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

1 

1 

0 

0 

18 

Grand Bleu de Gascogne 

0 

0 

1 

0 

1 

0 

0 

1 

0 

1 

0 

0 

1 

0 

0 

1 

0 

1 

0 

19 

Labrador 

0 

J 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

I 

0 

0 

1 

0 

20 

Lévrier 

0 

0 

1 

0 

1 

0 

0 

0 

I 

1 

0 

0 

1 

0 

I 

0 

0 

1 

0 

21 

Mastiff 

0 

0 

1 

0 

0 

1 

i 

0 

0 

1 

0 

0 

1 

0 

0 

1 

0 

0 

1 

22 

Pékinois 

1 

0 

0 

1 

0 

0 

1 

0 

0 

I 

0 

0 

0 

1 

1 

0 

1 

0 

0 

23 

Pointer 

0 

0 

1 

0 

1 

0 

0 

0 

1 

0 

0 

1 

1 

0 

1 

0 

0 

1 

0 

24 

Saint-Bernard 

0 

0 

1 

0 

0 

1 

1 

0 

0 

0 

1 

0 

1 

0 

0 

1 

0 

0 

1 

25 

Setter 

0 

0 

1 

0 

1 

0 

0 

0 

1 

0 

1 

0 

1 

0 

1 

0 

0 

1 

0 

26 

Teckel 

1 

0 

0 

1 

0 

0 

1 

0 

0 

0 

1 

0 

0 

I 

1 

0 

1 

0 

0 

27 

Terre-Neuve 

0 

0 

1 

0 

0 

1 

1 

0 

0 

0 

1 

0 

i 

0 

1 

0 

0 

0 

1 
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Tableau 10.2 


DIAGRAMME DES 10 PREMIERES VALEURS PROPRE 

5 

NUMERO 

VALEUR 

PROPRE 

POURCENTAGE' 

POURCENTAGE 

CUMULE 


1 

2 

0.4B16 

0.3 047 

28.90 

23.08 

2B . 90 

51.38 

***»W**+*Wllr|lr»*»**»*»*****W*é-»**i» + *l**** + »* + *-Af + *******+**k**+A**»************ + **^ 

*******»«***»**#**»« + * fr*»* + H+ xw++******ftwir*-A*-<r*»***+**fr*******+* 

3 

0.2110 

12.60 

64.64 


4 

0.1576 

9.45 

74 . 0 9 

+ +****•* + + * + * * * 4 K * 4 + * w *■ + f, 

5 

0.1501 

9.01 

83.10 

*-»*****, **.-.-,^«**t*.*** t ». 

S 

0.1233 

7.4 0 

90.50 


7 

0.0015 

4.89 

95.3B 


a 

0.0457 

2.74 

98.12 

’******* 

9 

0.023 5 

1.4.1 

99.54 

* '* * 

10 

0.0077 

0.4 6 

100.00 

** 
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Tableau 10.3 

TABLEAU DE BURT 



TA1 

TA 2 

T A3 


POl 

PO 2 

PO 3 

VE1 

VE2 

VE3 

TA! 

7 

0 

0 








TA2 

0 

5 

0 








TA 3 

0 

0 

15 








P01 

7 

1 

0 


8 

0 

0 




P02 

0 

4 

10 


0 

14 

0 




P03 

0 

0 

5 


0 

0 

5 




VE1 

5 

1 

4 


6 

0 

4 

10 

0 

0 

VE2 

2 

4 

2 


2 

6 

0 

0 

8 

0 

VE 3 

0 

0 

9 


0 

8 

1 

0 

0 

9 

INI 

3 

0 

5 


3 

3 

2 

4 

1 

3 

IN2 

3 

4 

6 


4 

7 

9 

5 

5 

3 

IM3 

1 

1 

4 


1 

4 

i 

1 

2 

3 

AF1 

1 

0 

12 


1 

7 

5 

5 

2 

6 

AF 2 

6 

5 

3 


7 

7 

0 

5 

6 

3 












AGI 

5 

3 

G 


5 

8 

1 

5 

5 

4 

AG2 

2 

2 

9 


3 

6 

4 

5 

3 

5 


TAl 

TA2 

TA3 


POl 

PO 2 

P03 

VEi 

VE2 

VE3 


INI IN2 INB 


AF1 AF2 



8 0 

0 13 

0 0 


6 4 

2 9 


3 8 

5 5 


INI IN2 



0 

13 


AG 2 
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Tableau 10.4 


MODALITES 

COORDONNEES 


C0NT1U3UT 

IONS 


IDEM 

-LTBELLE 

P. R5L 

D r STO 

1 

2 

3 

4 

5 

1 

2 

3 

4 

5 

1 

. Taille 













TA 1 

- PETITE TAILLE 

4.32 

2.86 

-1.18 

0.92 

-0.62 

0.12 

- 0.02 

12.6 

9.6 

7.8 

0.4 

0.0 

TA2 

- TAILLE MOYENNE 

3.09 

4.40 

-0.85 

-1.23 

1.02 

0.34 

— 0.31 

4 - 6 

12.2 

15.1 

2 .3 

2. 0 

TA 3 

- GRANDE TAILLE 

9.26 

0.80 

0.84 

- 0.02 

-0.05 

-0.17 

0.11 

13.5 

0.0 

0 . 1 

1.7 

o.a 







3 0.7 


23.0 

*1 4 














77 

. Poids 













POl 

- PETIT POIDS 

4.94 

2.38 

-1.17 

0 .B 2 

-0.36 

0.16 

I 

O 

O 

07 

14.0 

B. 7 

3.0 

0.9 

0.1 

F 02 

- POIDS MOYEN 

8.64 

0.93 

0.31 

- 0.02 

-0.23 

CN 

-H 

O 

1 

-0.19 

1.7 

15.1 

2 _ 2 

0.8 

2.1 

PO 3 

- POIDS ELEVE 

3.09 

4.40 

1.02 

0.97 

1.22 

0.07 

0.61 

6 . S 

7. 6 

21 .a 

0.1 

7.3 

3 

. Vélocité 










9 * 9 

VEI 

- LENT 

6.17 

1 .70 

-0.32 

1.04 

0.40 

-0.08 

0.31 

1.3 

17.5 

4.7 

0.3 

3. 8 

VE2 

- ASSEZ RAPIDE 

4 . 94 

2.3 B 

-0.60 

-0.89 

0.36 

0.37 

-0,37 

3.7 

10.1 

3.0 

4.3 

4.5 

VE 3 

- TRES RAPIDE 

5.56 

2.00 

0.89 

-0.3 7 

-0.76 

-0.24 

- 0.01 

9.2 

2.0 

35.3 

2.0 

0.0 


COSINUS CA.RF.ES 
2 3 4 


0.49 0.30 0.13 0.01 0.00 
0.16 0.34 0.23 0.03 0.02 
0 .8 B 0.00 0.00 0.04 0.02 


0.5B 0.29 0.05 0.01 0.00 
0.10 0.72 0.06 0.02 0.04 
0.23 0.22 0.34 0.00 0.09 


0.06 0.64 0.09 0.00 0.06 
0.15 0.33 0.135 0.06 0.06 
0.40 0.07 0.29 0.03 0.00 


-CONTRIBUTION CUMULEE 


14.2 29.6 23.0 


a. 4 


Intelligence 


INI 

- PEU INTELLIGENT 

4.94 

t-J 

CO 

0.35 

0.81 -0.35 0.02 -1.04 i 

1.2 

B . 4 

2.9 

0.0 

3 5.2 

0.05 

0 .28 

0.05 

0.00 

0,45 

IM 2 

- INTELLIGENCE MOYENNE 

B . 02 

1.08 

-0.37 

-0.29 0.49 -0.60 0.15 ; 

2 , 3 

1.7 

9.3 

18.5 

1.1 

0.13 

0.08 

ü . 23 

0.3 4 

0.02 

IN 3 

- TRES INTELLIGENT 

3.70 

3.50 

0.34 

-0.46 -0.60 1.28 1.06 i 

0.9 

2.0 

6 .3 

38.2 

27.9 

0.03 

0.06 

0.10 

0.4 6 

0.3 2 






.CONTRIBUTION CUMULEE = 

4.4 

12.1 

18.5 

56. B 

64.3 







AF1 
AF 2 


Af: Oection 

PEU AFFECTUEUX 

AFFECTUEUX 


B . 02 
8 . 64 


1.08 

0.93 


0.84 0.29 0.07 —0.08 -0.04 

-0.78 -0.27 -0.06 0.08 0.04 

.CONTRIBUTION CUMULEE =' 


6 . Agressivité 
AGI - PEU AGRESSIF 
AG2 - AGRESSIF 


8.64 
B. 02 


0.93 

1.08 


-0.40 -0.19 -0.31 -0.51 0.35 

0.43 0.21 0.33 0.55 -0.37 
.-.CONTRIBUTION CUMULEE =' 


11.6 
io. a 
22.4 

2.9 

3.1 

6.0 


1.7 0.2 

1.6 0.2 

3.3 0.3 


0.8 

0.9 

1.8 


3.9 


0 . 4 
0.3 
0.7 

14.4 

15.5 


0.1 

0.1 

0.2 

7.0 
7.5 


0.65 O.ÜB 0.00 0.01 0.00 
0.65 0.08 0.00 0.01 0.00 


0.17 0.04 0.10 0.28 0.13 
0.17 0.04 0.10 0.28 0.13 


B.2 29.8 14.5 >■.-> 
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Tableau 10.5 


MODALITES 


VALEURS-T 

EST 


COORDONNEES 



IDEM 

- LIBELLE 

EFF . 

P. ABS 

1 

2 

3 

4 

5 

! 

2 

3 

4 

5 

DTS'I'O. 


1 

Taille 















TA1 

- PETITE TAILLE 

7 

7.00 

-3.6 

2 . a 

-1.9 

0.4 

-0. L 

-1.18 

0.92 

-0.62 

0.12 

-0.02 

2 . 86 


TA 2 

- TAILLE MOYENNE 

5 

5.00 

-2.1 

-3.0 

2 .5 

o.a 

-0.8 

-0.85 

-1.23 

1.02 

0.34 

-0.31 

4.40 


TA3 

- GRANDE TAILLE 

15 

15.00 

4.8 

-0.1 

-0.3 

-1.0 

0.6 

0.84 

-0.02 

-0.05 

-0.17 

0.11 

0.80 


2 

Poids 















POl 

- PETIT FOIDS 

a 

8.00 

-3 . 9 

2.7 

-1.2 

0.5 

-0.2 

-1.17 

0.82 

-0.36 

0 . 16 

-0.05 

2.38 


PO 2 

- POIDS MOYEN 

14 

14.00 

1.6 

— 4.3 

-1.2 

-0.6 

-3.0 

0.31 

-0.82 

-0.23 

-0 . 12 

— 0.19 

0.93 


PO 3 

- POIDS ELEVE 

5 

5.00 

2.5 

2.4 

3.0 

0.2 

1.5 

1 .02 

0.97 

1,22 

0.07 

0.61 

4.40 


3 

Vélocité 















VEi 

- LENT 

10 

10.00 

-1.3 

4.1 

1.6 

— ü . 3 

1.2 

-0.32 

1.04 

0.40 

-o . oa 

0.31 

1.70 


VE 2 

- ASSEZ RAPIDE 

8 

8.00 

-2 . 0 

— 2 . 9 

1 .2 

1.2 

-1.2 

-0.60 

-0.99 

0.36 

0.37 

-0.37 

2.39 


VE3 

- TRES RAPIDE 

9 

9.00 

3.2 

-1 .3 

-2.8 

-0.9 

0.0 

0.89 

-0.37 

-0.76 

-0.24 

-0.01 

2.00 


<1 

Intelligence 















INI 

- PEU INTELLIGENT 

a 

8.00 

1.2 

2.7 

-1.2 

0.1 

-3.4 

0.35 

0.81 

-0.35 

0.02 

-1.04 

2.38 


IM2 

- INTELLIGENCE MOYENNE 

13 

13.00 

-1.8 

-1.4 

2 . 4 

-3 . 0 

0.7 

-0.37 

-0.29 

0.4 9 

-0.60 

0.15 

1.08 


IW3 

- TRES INTELLIGENT 

S 

6.00 

0.9 

-1.3 

-1.6 

3 . 5 

2.9 

0.34 

-0.46 

-0.60 

1 .28 

1.06 

3 . 50 


5 

Ali fection 















AF1 

- PEU AFFECTUEUX 

13 

13.00 

4.1 

1.4 

0 . 3 

-0.4 

-0.2 

0.64 

0.29 

0.07 

-0.08 

-0.04 

i.oa 


A F 2 

- AFFECTUEUX 

14 

14.00 

-4.1 

-1.4 

-0 . 3 

0.4 

ü .2 

-0.78 

-0.27 

-0.06 

o.oa 

0.04 

0.93 


b 

Agressivité 















AGI 

- PEU AGRESSIF 

14 

14.00 

-2.1 

-1.0 

-1.6 

-2.7 

1.8 

-0.40 

-0.19 

-0.31 

— 0.51 

0.35 

0.93 


AG 2 

- AGRESSIF 

13 

13.00 

2.1 

1.0 

1.6 

2.7 

-1.8 

0.43 

0.21 

0.33 

0.55 

-0.37 

1.08 


7 

Fonction 















EOl 

- COMPAGNIE 

10 

10.00 

-4.1 

0.4 

-0.3 

-0.3 

0.0 

-1.04 

0.10 

-Ü .07 

-0.09 

-0.01 

1 .70 


F02 

- CHASSE 

9 

9.00 

1.2 

-1.6 

— 1.3 

-0.7 

-1 . 6 

0.32 

-0.43 

-0.35 

-0.18 

-0.4 4 

2.00 


F03 

- UTILITAIRE 

a 

8.00 

3.1 

1.2 

1.6 

1 . 1 

1.7 

0.94 

0.37 

0.48 

0.32 

0.51 

2.38 

. 
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Tableau 10.6 


INDIVIDUS 

COORDONNEES 



COMTRI3UT 

IONS 



COSTMUS CARRES 

IDENTIFICATEUR 

P. 

REL 

DT 

STO 

1 










1 


2 


3 


‘‘ 


5 


1 





3 


1 


5 

BEAUCERON 

3 

7 ü 

1 

14 

0 

32 

-ü 

42 

-0 

1 0 

-0 

21 

-Ü 

12 

0 

B 

i 

7 

ü 

3 

] 

1 

0 

3 

0 

09 

Ü 

15 

ü 

01 

0 

04 

ü 

01 

BASSET 

3 

7 ü 

1 

91 

-0 

25 

1 

10 

-0 

19 

0 

29 

-0 

52 

0 

5 

ii 

7 

ü 

6 

2 

0 

6 

lî 

0 

03 

0 

63 

0 

02 

ü 

0 4 

0 

14 

BERGER ALLEMAND 

3 

70 

1 

5-1 

ü 

49 

-0 

4 6 

-0 

50 

0 

58 

0 

28 

1 

8 

2 

1 

4 

4 

i 

B 

1 

9 

0 

15 

0 

14 

0 

16 

0 

22 

0 

05 

BOXER 

3 

70 

1 

R0 

-ü 

45 

-0 

88 

0 

69 

0 

26 

-0 

4 6 

1 

5 

7 

5 

8 


i 

b 

5 

i 

0 

11 

1) 

4 3 

0 

27 

0 

04 

0 

12 

BULL-DOC- 

3 

7 0 

1 

6-1 

-1 

01 

0 

55 

-0 

16 

-0 

35 

0 

33 

7 

9 

2 

9 

0 

5 

2 

a 

2 

7 

0 

6 2 

0 

18 

0 

U2 

0 

07 

0 

07 

BULL,-MASTIFF 

3 

70 

2 

09 

ü 

7 5 

0 

55 

0 

50 

0 

6 6 

0 

72 

4 

4 

2 

9 

4 

3 

10 

i 

12 

9 

0 

27 

0 

14 

ü 

12 

0 

21 

0 

25 

CANICHE 

3 

70 

2 

16 

-0 

91 

-0 

02 

-0 

5B 

0 

63 

0 

43 

6 

4 

0 

0 

5 

fl 

9 

3 

4 

6 

0 

39 

0 

00 

ü 

15 

0 

10 

0 

09 

CHIHUAHUA 

3 

70 

1 

86 

-0 

B 4 

0 

8 4 

-0 

47 

-0 

09 

-0 

18 

5 

4 

6 

9 

3 

9 

0 

2 

ü 

3 

0 

38 

0 

38 

0 

12 

0 

00 

0 

02 

COCKER 

3 

70 

1 

93 

-0 

73 

0 

08 

0 

66 

0 

19 

-0 

10 

4 

1 

Ü 

I 

7 

7 

0 

8 

0 

3 

0 

23 

0 

00 

0 

2 3 

0 

02 

0 

01 

COLLEY 

3 

70 

1 

11 

0 

12 

-0 

52 

-0 

33 

-0 

66 

0 

19 

0 

1 

T 

7 

2 

0 

10 

2 

0 

9 

0 

01 

ü 

25 

0 

10 

0 

39 

0 

03 

DALMATIEN 

3 

7 0 

1 

77 

-0 

65 

-0 

99 

0 

4 6 

-0 

19 

-0 

14 

3 

2 

9 

4 

3 

7 

0 

a 

ü 

5 

0 

2 4 

0 

55 

0 

12 

0 

02 

0 

01 

DOBERMAWH 

3 

70 

i 

56 

0 

87 

-0 

32 

-0 

45 

0 

51 

0 

2 4 

5 

9 

1 

0 

3 

o 

6 

i 

1 

4 

0 

4 9 

0 

06 

0 

13 

0 

1 7 

0 

04 

DOGUE ALLEMAND 

3 

7 0 

i 

95 

1 

05 

ü 

51 

0 

17 

n 

06 

-0 

32 

Ü 

4 

2 

5 

o 

5 

0 

1 

2 

5 

0 

56 

0 

13 

0 

01 

0 

00 

0 

05 

EPAGNEUL BRETON 

3 

70 

2 

Ul 

-0 

48 

-1 

04 

0 

06 

G 

60 

0 

25 

1 

R 

10 

4 

o 

1 

B 

5 

i 

5 

0 

10 

ü 

4 9 

0 

00 

0 

17 

0 

03 

EPAGNEUL FRANÇAIS 

3 

7 0 

1 

30 

0 

14 

-0 

52 

0 

12 

-0 

47 

0 

00 

0 

2 

2 

6 

o 

1! 

5 

2 

0 

0 

0 

02 

ü 

2 2 

0 

01 

0 

18 

0 

00 

FOX-HQUHD 

3 

70 

1 

3 B 

0 

88 

0 

03 

-0 

36 

-0 

02 

-0 

66 

5 

9 

0 

0 

2 

3 

0 

0 

10 

a 

0 

56 

D 

00 

0 

10 

0 

00 

0 

22 

FOX-TERRIER 

3 

7 0 

1 

7 B 

-ü 

BH 

0 

14 

0 

05 

0 

29 

-0 

27 

6 

0 

0 

2 

0 

1 

1 

9 

1 

8 

0 

4 4 

0 

01 

0 

00 

0 

05 

0 

04 

GRAND BLEU DE GASCOGNE 

3 

70 

1 

44 

0 

52 

-0 

11 

0 

04 

0 

24 

-ü 

82 

2 

1 

fi 

i 

0 

0 

1 

4 

16 

5 

0 

19 

0 

01 

0 

00 

0 

04 

0 

4 6 

LABRADOR 

3 

70 

7 

77 

-0 

65 

-0 

99 

0 

46 

-0 

19 

-0 

14 

3 

2 

a 

4 

3 

7 

0 

8 

0 

5 

0 

2 -i 

0 

55 

0 

12 

0 

02 

ü 

01 

LEVRIER 

3 

70 

1 

35 

0 

6B 

-0 

08 

-0 

60 

-0 

4 6 

-0 

35 

3 

5 

D 

l 

6 

2 

5 

0 

3 

1 

0 

34 

ü 

01 

0 

215 

0 

1 G 

0 

09 

MASTIFF 

3 

7 U 

I 

90 

0 

76 
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Facteur 2 


Représentation des individus et des variables dans le premier plan factorial 
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Figure 10.2 











Méthodes de 
classification 


Le but des méthodes de classification est de construire une partition, ou une suite de 
partitions emboîtées, d’un ensemble d’objets dont on connaît les distances deux à deux. 
Les classes formées doivent être le plus homogène possible.* 


Il.l GÉNÉRALITÉS 

11J. I Distances et dîssimilarités 

En classification, que les données se présentent initialement sous forme d’un tableau 
individus-variables ou non, toute l’information utile est contenue dans un tableau n X n 
donnant les dissemblances entre les n individus à classer. 

//./././ Définitions 

Notons E l’ensemble des n objets à classer. Une distance est une application de E X E 
dans telle que : 

r d(i,j) = d(j, i) 

_ d(ij) ^ 0 
d(i.j) = 0 <=> i = y 
, d(ij) < d{i , k) + d(k,j) 

Rappelons que toute distance n’est pas euclidienne ; il faut pour cela qu’elle soit 
engendrée par un produit scalaire (voir chapitre 7). 

Lorsque l’on a seulement : 

f d(ij) = d(j, i ) 

1 </(/,./) > 0 d(i, i ) = 0 

on parle de dissimilarité. Une similarité est une application s telle que : 

■s(U) = i ) 

4 s(ij) S: 0 
. J(i, 0 ^ s(ij) 


Le lecteur désireux d'approfondir ce chapitre se reportera avec profit au livre de Nakache et Confais, 200-1. 
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Lorsque l’on a seulement une information du type suivant : / et j sont plus semblables que 
k et /, on parle de préordonnance ; il s’agit d’un préordre total sur les paires d’éléments de E. 

Shepard, puis Benzécri, ont montré que la connaissance d’une préordonnance suffit à recons¬ 
tituer une figure géométrique de n points dans un espace euclidien de dimension réduite. 
Benzécri a donné la formule approchée suivante pour reconstituer une distance clÿ connaissant 
seulement le rang de cette distance parmi les n(n — l )/2 possibles : 



n(n — 1 ) 


où p est la dimension de l’espace. 

Lorsque les données se présentent sous forme d’un tableau X de p caractères 
numériques, on utilise souvent la métrique euclidienne classique M = I, ou 

M = D 1 A 2 , la métrique de Mahalanobis M = V -1 , la distance L, : d(i,j) = 2l A 'f ~ x j\* 

/ y 

la distance de Minkowski L q : d(tj) — ^ (.t- — Xj)‘ ! J . 


11.1.1.2 Similarités entre objets décrits par des variables binaires 


Ce cas très fréquent concerne des données du type suivant : n individus sont décrits par la 
présence ou l’absence de p caractéristiques. De nombreux indices de similarité ont été pro¬ 
posés qui combinent de diverses manières les quatre nombres suivants associés à un couple 
d’individus : 

a = nombre de caractéristiques communes ; 

b = nombre de caractéristiques possédées par i et pas par j ; 

c = nombre de caractéristiques possédées par j et pas par i ; 

d = nombre de caractéristiques que ne possèdent ni i, ni j. 

Bien que posséder une caractéristique ou ne pas posséder la caractéristique contraire soient 
logiquement équivalent, a tld ne jouent pas le même rôle pour des données réelles : le fait que 
deux végétaux ne poussent pas dans la même région ne les rend pas nécessairement semblables. 

Les indices suivants compris entre 0 et 1 sont aisément transformables en dissimilarité par 
complémentation à 1 : 

a 

Jaccard :-; 

ci + b + c 

2 a 

Dice ou Czekanowski : —---; 

2 a + b + c 


Ochiaï : 


a 


Russel et Rao : 


(.a + b)(o + c) 
a 


ci + b + c + d 

a + d 


Rogers et Tanimoto : 

a + d + 2 (b + c) 

De nombreux autres indices ont été proposés. 
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11.1.1.3 Accord entre distances et dissimilaritês 

Deux distances ou dissimilaritês s’accordent d’autant mieux qu’elles respectent les ordres 
entre proximités. A toute distance d correspond un ordre sur les parties d’éléments de E définies 
par des relations du type dici, b) ^ d(c, d). Pour comparer deux distances d\ et d 2 , on for¬ 
mera tous les quadruplets possibles de points de E et on comptera le nombre d’inégalités modi¬ 
fiées (ceci constitue une distance entre classes de fonctions d e£X£ dans IR* définies à un 
automorphisme croissant près). 

L’ordre sur les paires défini par une distance s’appelle une ordonnance. Si ./ désigne 
l’ensemble des paires de E , cette ordonnance peut être représentée par un graphe sur 7, 
c’est-à-dire une partie E de J X J. Le nombre des inégalités modifiées n’est autre que le 
cardinal de la différence symétrique des graphes G, et G 2 associés à 7, et r/ 2 d(d , ; d 2 ) — 
card 

I 1.1.2 Accord entre partitions, indice de Rand 

Une partition définit une variable qualitative dont les catégories sont les classes de la 
partition. On pourrait donc comparer deux partitions P, et P 2 en étudiant le croisement des 
deux variables qualitatives associées. Cependant, la numérotation des classes étant arbitraire, 
il est préférable de considérer les paires d’individus afin de savoir si quand deux individus 
font partie de la même classe de P,, ils sont dans une même classe de P 2 . 

/ /. 1.2. / Tableau des comparaisons par paires associé à une partition 

On notera C le tableau de taille n, telle que = I si les individus / et j font partie de la 
même classe, = 0 sinon. Il est facile de voir que C = XX' où X est le tableau disjonctif 
associé à une partition P Les c,j vérifient des relations particulières puisqu’une partition est 
une relation d’équivalence : 


Réflexivité : c u = l 
• Symétrie : c i} = c,, 

_ Transitivité : c,j + c jk — c ik < 1 


La dernière relation peut ne pas sembler naturelle, mais elle traduit linéairement le fait 
que, si i et j sont dans une même classe, j et k dans une même classe, alors les 3 éléments 
sont dans la même classe. 

On a de plus les formules suivantes : 

® Le nombre m de classes de la partition est tel que : 


w 


= X— 
i= 'Xc* 


® Si /ï„. désigne le nombre d’individus de la classe u : 

71 7J 7/J 

X Xty = Trace(CC') = V,'>1 

i=l7=1 n=l 
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/ 1. L2.2 Accord entre deux partitions 

Considérons les if paires d’individus, on notera : 
a : le nombre de paires dans une même classe de P, et dans une même classe de P 2 (accords 
positifs) 

b : le nombre de paires dans une même classe de P, et séparées dans P 2 
c : le nombre de paires séparées dans P t et dans une même classe de P 2 
d : le nombre de paires séparées dans P, et séparées dans P 2 (accords négatifs) 

Le pourcentage de paires concordantes a/n 2 est un coefficient semblable à celui de 
Kendall pour les ordres, mais il est plus courant d’utiliser (a + d)/n 2 si l’on donne la même 
importance à l’appartenance au complémentaire d’une classe. 

On a ainsi défini le coefficient de Rand R dans la version donnée par Marcotorchino et 
Michaud (n 2 paires au lieu de n(n — l)/2 paires dans la version originale de Rand). 

En notant C 1 et C 2 les deux matrices de comparaisons par paire, on trouve facilement : 

n n Mi /m 2 

a = 2 'liCjjCjj = Trace(C [ C 2 ) = 2 

i-l j= 1 n=l i<=! 

où est le terme général du tableau de contingence X'jX 2 croisant les deux partitions. 

On a : 


d = î î(i - 4>u - 4) 

‘=17=1 


Le coefficient de Rand vaut alors : 


R 


S £cJ.C 2 -+2 £(1 - cj)(l - CJj) 2 « 2 

_ i—I j~l i = I j- 1_ _ _ _ Il 1’ _ n_v_ 


Il prend ses valeurs entre 0 et 1 ; il est égal à 1 lorsque les deux partitions sont identiques. 
La version suivante (correction de Hubert et Arabie) est également utilisée : 



Son avantage est que son espérance est nulle si les deux partitions sont indépendantes, 
mais l’inconvénient est que l’on peut avoir des valeurs négatives. 

m Exemple : Considérons les deux partitions P; = (ab)(cd) et P 2 = (a)(bcd) de 4 objets. 
On a : 


/> 

1 

0 

°\ 


/I 

0 

0 0\ 

1 

1 

0 

0 

c 2 = 

0 

1 

1 1 

0 

0 

1 

1 


0 

1 

1 1 

\o 

0 

1 

il 


lo 

1 

1 I / 
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Le tableau croisé est : 



a 

bcd 

ab 

1 

1 

cd 

0 

2 


L’indice de Rand R = 10/16. 

^ , cctrd(G ] AG 1 ) 

On notera que 1 — R = --- 

7/" 

induits par les deux partitions. 


où G,AG; est la différence symétrique des graphes 


Card (G-|ÀG 2 ) = 6 



S B. 1.3 Aspects combinatoires de Ba classification 

On pourrait penser que. muni d’un critère, la recherche de la meilleure partition soit 
chose facile : E étant fini, il suffirait de considérer toutes les partitions possibles (à nom¬ 
bre fixé de classes ou non) et de choisir celle qui optimise le critère de qualité choisi. Les 
résultats suivants montrent que cette tâche est insurmontable car le nombre de partitions 
devient vite astronomique : un calculateur pouvant traiter un million de partitions par 
seconde mettrait plus de 126 000 années pour étudier toutes les partitions d’un ensemble 
de 25 éléments ! 

Il faudra donc, dans la plupart des cas, se contenter de solutions approchées. 


I1.1.3.1 Nombre de partitions en k classes de n éléments 

Notons P„ k , ce nombre appelé nombre de Stirling de deuxième espèce. On a les résultats 
triviaux suivants : P nA — P nn - 1 ; P ,, ] = ———-. Le nombre de dichotomies 
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2 " 

possibles est : P„ 2 — 2 """ 1 — 1. En effet, il y a 2" parties de E, donc — partitions de E ou 

couples de parties complémentaires, mais parmi elles il y a la partition { E,0 ) à éliminer. 

Les nombres P n k satisfont à l'équation de récurrence suivante qui permet de les calculer 
de proche en proche : (tableau 11 . 1 ) 

P n,k = E|i-|,fc-l + kP 


sm Démonstration : Soit une partition de E en k classes et soit un élément e de E : de deux 
choses l'une, ou bien e est seul dans sa classe, ou il ne l'est pas : si e est seul dans sa classe 
il y a E„_partitions de cette sorte ; si e n’est pas seul dans sa classe c’est que E — [e\ 
est partitionné aussi en k classes et il y a P n ~^k manières de le faire et e peut se trouver alors 
dans l'une quelconque de ces k classes soit kP„_ lk possibilités. m 

On peut montrer que : 


P 


fl. k 


_ 1 _ 

kl 


Xcu- 


i = i 


k" 

et donc si n œ P n k ~~ —. 

I1.1.3.2 Nombre total de partitions P n (nombre de Bell) 

On a : 


k=n 

p „ = y,p„.k 

k-i 

On peut aussi obtenir une formule de récurrence sur les P n . 

Considérons, comme précédemment, un élément e : pour une partition donnée de E , 
e se trouve dans une classe ; si cette classe a un élément, il y a E„_ t partitions de E laissant 
e seul dans une classe ; si cette classe a deux éléments, il y a manières de choisir le 
compagnon de e dans sa classe et E„_ 2 manières de constituer les autres classes ; si cette 
classe a k éléments, il y a C\ jl 1 , manières de choisir les compagnons de e et E„_* manières 
de constituer les autres classes d’où : 

p„ = + cj_, , p „-3 + • • • + c;~l + ■ • • + c;;rf P , + 1 

Si l’on pose par convention P 0 = 1, on a la formule : 


P„ = P« + O» ~ 1) E, + Ci;_, P 2 + ■ • ■ + C*_! P k + * • • + E„_, 
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On démontre que P n 


1 V ^ 

e&k\ 


Tableau 11.1 


Table des P„ k 



I 1.1.4 Sur l’existence et la caractérisation 
des classes d’un ensemble 

La définition de classes « naturelles » pose d'épineux problèmes. Si dans certaines 
situations simples comme celle de la Figure 11.2 on voit clairement de quoi il s’agit, il est 
loin d’en être ainsi la plupart du temps et il faut bien admettre que l’on ne peut donner de 
définition claire des classes a priori. D’où la difficulté de valider des méthodes de classi¬ 
fication en essayant de reconnaître des classes préexistantes. 


XXX 

XXX 

XXX 


X 

X X 
X X 
X X 


-K— 

Figure 11.2 


Bien souvent, les classes ne seront que ce qu’a produit un algorithme de classification. 

Sur le plan pratique, la détermination du nombre « réel » de classes n’admet pas de 
solution satisfaisante. 

Notons enfin qu’il ne suffit pas de produire des classes : il faut encore les interpréter et uti¬ 
liser alors l’ensemble des informations disponibles et pas seulement les distances deux à deux. 
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I 1.2 LES MÉTHODES DE PARTITIONNEMENT 

I 1.2.1 Les méthodes du type « nuées dynamiques » ou k-means 

Ces méthodes permettent de traiter rapidement des ensembles d’effectif assez élevé en 
optimisant localement un critère de type inertie. On supposera que les individus sont des 
points de R 7 ’ muni d’une distance euclidienne. 

II.2.1.1 Inertie interclasse et inertie intraclasse 

Etant donné une partition en k groupes d’un nuage de n points, on définira les quantités sui¬ 
vantes : g,, g 2 ,. .g A . centres de gravité des k groupes et I { , / 2 , . . 4 inerties des k groupes. 

On rappelle que l’inertie est la moyenne des carrés des distances au centre de gravité. 

L'inertie totale I des n points autour du centre de gravité global g est alors égal à la somme 
de deux termes (théorème de Konig-Huyghens) : 


/ - h + A.- 

où /„. est l’inertie intraclasse /„. = SP,/,-, P,- étant le poids de la classe / et I n l’inertie inter¬ 
classe ou inertie du nuage des k centres de gravité : I B = SP,r/ 2 ( g,-, g). 

Un critère usuel de classification consiste a chercher la partition telle que /„. soit minimal pour 
avoir en moyenne des classes bien homogènes, ce qui revient à chercher le maximum de I B . 

Remarquons que ce critère ne s’applique qu’à nombre de classes fixé : si k n’était pas fixé 
la solution serait la partition triviale en n classes (un individu = une classe) qui annule /„,. 

I1.2.1.2 La méthode des centres mobiles 

Due à Forgy, elle consiste à partir de k points pris parmi E (en général tirés au hasard) ; 
ces k points définissent une partition de l’espace, donc une partition de E en k classes 
£ C) , £ C( . La partition de U P associée à k centres c h c 2 ,..., c A . est un ensemble de domai¬ 

nes polyédraux convexes déterminé par les hyperplans médiateurs des centres. £ C) est la classe 
constituée par l’ensemble des points de E plus proches de c,- que de tout autre centre (fig. 11.3). 


x 

x 

x 

X 

c 2 

X 



Figure 11.3 
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On remplace alors les k points pris au hasard par les k centres de gravité de ces classes et 
0 n recommence : l’algorithme converge rapidement vers un optimum local car le passage 
d’un centre arbitraire c, à un centre de gravité diminue nécessairement la variance interne des 
classes. 

Soit E gi la classe obtenue en remplaçant c, par g, centre de gravité de E iy II suffît de mon¬ 


trez que : 



2 d{l g,) 2 
j £ e. 


1 A 
-2 
«.■=i 


2 d(k, g,) 2 
i<£4 


car, d'après le théorème de Konig-Huyghens, g/ n’étant pas le centre de gravité de le 
membre de droite sera supérieur à la variance intraclasse de la partition E Ri . 

Or, si l’on considère un point quelconque, il figurera dans le membre de droite avec son 
carré de distance au g ( - qui sera le plus proche de lui par construction des E^ r tandis que dans 
le membre de gauche il figurera avec sa distance à un g, qui ne sera pas forcément le plus 
proche de lui. mais qui sera seulement son centre de gravité dans la partition E c . 

Ceci démontre donc le résultat annoncé : le nuage étant fini (l’ensemble de toutes les 
partitions possibles aussi), l’algorithme converge car la variance intraclasse ne peut que 
diminuer ; elle atteindra donc son minimum accessible à partir du système initial de centres 
c ; en un nombre fini d’itérations, le théorème de Huyghens indiquant que cette décroissance 
est stricte si g ( - n’est pas confondu avec c,-. 

L’expérience montre que le nombre d’itérations nécessaires est très faible. Si au cours 
d’une itération une classe se vide, il est possible de tirer au hasard un nouveau centre. 

La figure 11.4 montre le déroulement de l’algorithme sur un cas d’école : on voit qu’en 
deux itérations on a « reconnu » la structure existante. 



Figure 11.4 


Cette méthode peut s’appliquer à des données qualitatives à condition de travailler sur des 
coordonnées factorielles. On a ainsi effectué une partition en quatre classes de l’ensemble 
des 27 chiens étudiés au chapitre précédent en utilisant les coordonnées issues de l’ACM du 
tableau disjonctif (on utilise ici les 10 facteurs). Quatre centres ont été tirés au hasard (les 
individus 11, 7, 18, 25) et on a abouti en moins de 10 itérations à la partition suivante : 

Classe I : individus n" 2, 5, 7, 8, 17, 22, 26. 

Classe 2 : individus n° 4, 9, 11, 14, 19. 

Classe 3 : individus n° 6, 21, 24, 27. 

Classe 4 : individus n° 1,3, 10, 12, 13, 15, 16, 18, 20, 23, 25. 
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On a : inertie interclasse = 0.93665, inertie intraclasse = 0.73001, l'inertie totale valant 
1.66667 

Dans la méthode precedente, on attend que tous les individus aient été affectés à une classe 
pour recalculer les centres de gravité. La variante de Mac Queen procède différemment : les 
centres sont recalculés après l’affectation de chaque point. 

La méthode des nuées dynamiques, proposée par E. Diday, est une extension de la 
précédente. Elle en diffère notamment par les tr aits suivants : au lieu de représenter une classe 
uniquement par son centre de gravité, on la caractérise par un « noyau ». Ce noyau peut être 
un ensemble de q points (les plus centraux), un axe principal ou un plan principal, etc. 

Il faut donc disposer formellement d’une fonction de représentation qui, à un ensemble de 
points, associe son noyau. 

Il faut ensuite disposer d’un algorithme de réaffectation des points aux noyaux. On pro¬ 
cède alors par alternance des deux phases : affectation, représentation jusqu’à convergence 
du critère choisi. La méthode des nuées dynamiques ne se limite pas au cas de distances 
euclidiennes. 

Comme la partition finale peut dépendre du tirage des noyaux de départ (problème 
d’optimum local), on recommence alors toute l’opération avec s autres tirages. On appelle 
« formes fortes » ou « groupements stables » les ensembles d’éléments ayant toujours été 
regroupés lors de la partition finale pour les s passages de l’algorithme. 

1 fi .2.2 La métliode de Condorcet 

Considérons un ensemble de n individus décrits par p variables qualitatives à m u ni 2 ,.. m p 
modalités respectivement : on a p partitions différentes du même ensemble. 

La recherche d’une nouvelle partition revient donc à rechercher un compromis entre ces 
p partitions initiales. 

Soit C 1 , C 2 , . . ., CP les tableaux des comparaisons par paires associés à J , , . fe ■ , 

et C = 2CL 

k 

Cjj est le nombre de fois parmi p où les objets i et j ont été mis dans une même classe. 

Soit C' = 2C — p . On a alors c\- > 0 si / et j sont dans une même classe pour une majorité 
de variables 2C k , cjj < 0 si il y a une majorité de variables où / et j sont dans des classes 
différentes ; c\j = 0 s’il y a autant de variables pour lesquelles / et j sont séparés que de 
variables pour lesquelles / et j sont réunis. 

Un critère naturel pour former une partition « centrale », compromis entre les p parti¬ 
tions, consiste alors à mettre i et j dans une même classe à chaque fois que cjj est positif 
et à les séparer à chaque fois que cj: est négatif. Malheureusement, ce critère ne fournit 
pas nécessairement une partition : il peut y avoir non transitivité de la règle majoritaire. 
C’est le paradoxe de Poincaré : ce n’est pas parce qu’il y a une majorité pour réunir / et j, 
j et k qu’il y a une majorité pour réunir i et k. 

Il faut donc imposer les contraintes des relations d’équivalence ce qui revient à chercher 
la partition satisfaisant au mieux la majorité des partitions initiales. 
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Si Y est le tableau des comparaisons par paires de la partition cherchée, on a donc à 
résoudre le problème suivant : 

max 22 Cÿy l7 
• j 

f j + 

avec : \ y,j + y jk - y ik < 1 

l y,j = 0 ou I 


C’est un problème de programmation linéaire bivalente dont on peut trouver une solution 
exacte (pas forcément unique) si n est faible, ou une solution approchée si n n’est pas trop élevé 
en utilisant des heuristiques (voir l’ouvrage de Marcotorchino et Michaud cité en référence). 

Il y a. en effet, de l’ordre de ir inconnues —- exactement^ et de l’ordre de n 3 

contraintes. 

On aura remarqué que le nombre de classes n’a pas à être imposé, il fait partie de la 
solution. 

La distance de la différence symétrique entre les deux partitions associées aux tableaux 
C k et Y vaut : 


221* - 41 = 22<* - 4> 2 = 224 - 224* = <«c‘. y) 


La partition cherchée est donc celle qui est à distance moyenne minimale des partitions 
initiales puisque : 


min2^(Y, C k ) = min 
r à 


ES Cÿ - 2E 


CfjVi 


ce qui revient à chercher max22 c /))'ÿ‘ 

' i 

D’après le paragraphe 11.1.2, la partition optimale est donc celle qui maximise la somme 
des indices de Rand avec chacune des partitions associées aux p variables qualitatives. On 
retrouve ici une propriété d’ossoc/otion maximale : 


max2 c t > âf*) 

k 


où est un critère d’association entre variables qualitatives. 

Lorsque n’est pas l’indice de Rand, il faut en général fixer le nombre de classes de 9/ 
En l’exprimant en termes de comparaison par paires, c’est-à-dire en explicitant la mesure 
d’association <î> en fonction des tableaux Y et C k , on peut se ramener à un problème de 
programmation linéaire dans certains cas. 

Ainsi l’indice d’association de Belson entre deux variables qualitatives défini par : 


f/ V 


n 
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où n m . est le terme général du tableau de contingence croisant ty et c£ k s’écrit avec les 
tableaux Y et C k : 


« ii / i .,r ,.£ 

X X 4 - + h 

i= i j- A « > r 



6 1.3 MÉTHODES HIÉRARCHIQUES 

Elles consistent en un ensemble de partitions de E en classes de moins en moins 
fines obtenues par regroupements successifs de parties. Une classification hiérarchique se 
représente par un dendrogramme ou arbre de classification (fig. 11.5) : 



Figure ! 1,5 


Cet arbre est obtenu de manière ascendante dans la plupart des méthodes : on regroupe 
d’abord les deux individus les plus proches qui forment un « noeud », il ne reste plus que 
n — I objets et on itère le processus jusqu’à regroupement complet. Un des problèmes 
consiste à définir une mesure de dissimilarité entre parties. Les méthodes descendantes, ou 
algorithmes divisifs, sont plus rarement utilisées. 

I 1.3.1 Aspect formel 

11.3.1.1 Hiérarchie de parties d*un ensemble E 

Une famille H de parties de E est une hiérarchie si : 

a) E et les parties à un élément appartiennent à H. 

b) VA, B e H A fl B e \A, B, 0). En d’autres termes, deux classes sont soit disjointes, 
soit contenues l’une dans l’autre. 

c) Toute classe est la réunion des classes qui sont incluses en elle. 

A toute hiérarchie correspond un arbre de classification : 

Esa Exemple : H = (0, «, b, c, d , <?,/; ab ; abc , de, def, abcdef } (fig. 11.6) eh 

Une partition de E compatible avec H est une partition dont les classes sont des élé¬ 
ments de H. D’une manière imagée, c’est une partition obtenue en coupant l’arbre selon une 
horizontale et en recueillant les morceaux. 
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abc de f 

Figure 11.6 


Lorsque l’on peut dire qu’un élément ou une partie A est reliée à B avant que C ne soit 
reliée à D, autrement dit s’il existe une relation de préordre totale compatible avec la rela¬ 
tion d’ordre naturelle par inclusion, on dit qu’on a une hiérarchie stratifiée. 

Une hiérarchie est indicée s’il existe une application /' de H dans M + croissante, c’est-à- 
dire telle que si A C B : /(A) ^ i(B). A toute hiérarchie indicée correspond une hiérarchie 
stratifiée. Les indices sont appelés niveaux d’agrégation : i(A) est le niveau auquel on trou¬ 
ve agrégés pour la première fois tous les constituants de A. Ainsi, dans la figure 11.7 on a 
/(c, cl) = 1 et /(a, /;, c ) = 0.5. 



Figure 11.7 


Les niveaux d’agrégation sont pris égaux, en général, à l’indice de dissimilarité des deux 
parties constituant la réunion /(fl, b, c) = S((a, b), c). 

Le problème se pose alors de savoir si la hiérarchie peut présenter ou non des inver¬ 
sions : si a, b sont réunis avant c, cl dans l’algorithme, on doit avoir /(fl, b) < i(c\ cl) sinon 
il y a inversion. 

11.3.1.2 Distances ultramétriques 

A toute hiérarchie indicée H correspond un indice de distance entre éléments de H : cl(A, B) 
est le niveau d’agrégation de A et de B, c’est-à-dire l’indice de la plus petite partie de H conte¬ 
nant à la fois A et B. 
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Cette distance possède la propriété suivante, dite propriété ultramétrique : 

d(a , b) < sup \d(a, c) ; d(b, c)} Va, b, c 

En effet, de deux choses l’une, quand « a » a été réuni à « b » pour la première fois : 

- ou bien c n’est pas encore réuni à a (ni à b par conséquent), il sera donc réuni plus 
lard, donc d(a, c) qui est égal a d(b, c). puisque a et b sont maintenant réunis, est 
supérieur à d(ci, b ) ; 

ou bien c est déjà réuni à a ou b. supposons à a pour fixer les idées, avant que a ne 
soit réuni à b. Donc d(a, c) < d(a , b). Mais alors d(b, c) = d(a , b), car c est réuni ; 
à b en même temps que b l’est à a. Ce qui démontre la relation ultramétrique. 

Réciproquement, à toute ultramétrique correspond une hiérarchie indicée ; la recherche 
d’une classification hiérarchique est donc équivalente à celle d’une ultramétrique ; le 
problème clé de la classification est donc le suivant : connaissant une métrique sur E , en 
déduire une ultramétrique aussi proche que possible de la métrique de départ. 

Les propriétés suivantes de géométrie ultramétrique précisent le lien avec les hiérarchies 
indicées : 

En géométrie ultramétrique, tout triangle est soit isocèle pointu (la base est 
inférieure à la longueur commune des deux autres côtés), soit équilatéral. 

En effet : 


d(a , c ) ^ sup {d(a, c ) ; d(b, c)] 
d(a, c ) ^ sup [d(a, b) ; d(b, c)} 
d(b, c ) ^ sup {d(a, b) ; d(b, c)) 

Supposons par exemple d(a, b) > d(a, c) > d(b , c). Cette hypothèse est absurde car une 
des trois relations ultramétriques n’est plus vérifiée. Il faut donc que deux côtés soient égaux 
et on voit aisément que ce sont forcément les deux plus grands qui le sont. 

- En géométrie ultramétrique, tout point d’une boule est centre de cette boule. 

En effet, soit B la boule ensemble des points dont la distance à un centre a est inférieur 
à r : B{a , r) = {x I d(a, x) < /•}. 

Soient x et y deux points e B : d(x, y) < sup [d(x, a) ; d(a, y)) . 

On en déduit que, si deux boules ont une intersection non vide, l’une est nécessairement 
incluse dans l’autre puisqu’elles sont concentriques. On retrouve bien ici la propriété d’in¬ 
clusion des parties d’une hiérarchie. 


I 1.3.2 Stratégies d’agrégation sur dissimilarités 

On suppose ici que l’on connaît un indice de dissimilarité d. Différentes solutions 
existent qui correspondent à des choix différents de la dissimilarité entre parties de E , 
appelés stratégies. Le problème est en effet de définir la dissimilarité entre la réunion de 
deux éléments et un troisième : d((a, b) ; c). A chaque solution correspond une ultramé¬ 
trique différente. 
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I f.3.2.1 Le saut minimum 

Cette méthode (connue sous le nom de single linkcige en anglais) consiste à écrire que : 
J((a, b) ; c) — inf (d(a, c) ; d(b, c)). La distance entre parties est donc la plus petite distance 
(fig. 11 -8) entre éléments des deux parties. 



Figure 11.8 


Cette stratégie conduit à une ultramétrique particulière : la « sous-dominante » qui est 
parmi les ultramétriques inférieures à cl (8(/,/) < cl{i,j)) la plus élevée (5 (Lj) maximum). 

En effet, la construction de l’arbre aboutit à une suite de partitions P h emboîtées, condui¬ 
sant chacune à une dissimilarité cl,, entre parties. 

Nous allons montrer que d,„ qui est forcément inférieure à S, est supérieure à toute 
ultramétrique inférieure à 8 : comme, à la limite, cl h devient ultramétrique, c’est que l’on a 
obtenu T ultramétrique inférieure maximale. 

Montrons ceci par récurrence ; si c’est vrai pour montrons que c’est encore vrai 
pour cl lr II suffit d’examiner les couples pour lesquels d h Ut, i) =f z/,,_ ( (zz, 0- Ceci n’est possi¬ 
ble que si zz (ou z) vient d’être agrégé. 

Nous sommes donc dans la situation suivante où, au pas li , on vient d’agréger i à i' (fig. 11.9). 


i i' u 

Figure 11.9 

Si l’on a agrégé / à i', c’est qu’ils étaient les plus proches avec la dissimilarité d h _, et l’on 
a alors : 

d h (i, i') = d h _ x (i, i') < inf (z/ /( _,(zz, /), d, ,_,(zz, i')} 

D’autre part, on a précisément d h {u, i ) = d h (u, i ') = inf [d h -, (z/, i), (zz, i)} par hypothèse. 
Soit « d » une ultramétrique inférieure ou égale à 8, donc à (récurrence) 
d(u. i) ^ r//,-! (a, 0. 

Comme d est ultramétrique, d(n , z) < sup [d(i, i') ; cl(it, /')} donc : 

d(u, i ) < sup {*/,,_,(/, i') ; d h _ x (u, i')} 

Comme d h _ x (i, i') 2 inf ( d h _,(zz, z), z/,,_|(zz, i')}. On a d(u, i ) < £/ /; _,(z/, /'). 

On a donc à la fois cl(u , z) ^ (zz, z"). rf(zz, z) ^ d h _, (zz, z) et : 

r/yXzz, z) = inf K_,(zz, z') ; c/,,_,(fz, /')} 

C’est donc que z/(zz, z) ^ t/ ;i (zz, z). 
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Une autre méthode pour aboutir à l’ultramétrique inférieure maximale, due à M. Roux, 
consiste à passer en revue tous les triangles possibles faits avec les points de £ et à les rendre 
isocèles pointus (on remplace la longueur du plus grand côté par celle du côté médian), de 
manière à obtenir directement Tultramétrique inférieure maximale, On passe en revue tous les 
tri angles jusqu’à ce qu’on ne puisse plus rien modifier ; le reste ensuite à tracer l'arbre, 

11.3.2.2 Le diamètre et autres stratégies 

On prend ici comme distance entre parties la plus grande distance : 

d((a , b)\c) = sup(£/(fl, c), d(b, c)) 

On aboutit alors à une des uitramétriques supérieures minimales, contrairement au cas 
précédent où la sous-dominante est unique. Il n’existe pas en effet une seule ultramétrique 
minimale parmi les uitramétriques supérieures à cl ; on montre même qu’il en existe (?/ - 1 )} 
dans le cas où toutes les valeurs de la dissimilarité sont différentes. 

De nombreuses autres méthodes de calcul de distances entre parties ont été proposées 
(moyenne des distances, etc.) toutes sont des cas particuliers de la formule de Lance et 
Williams généralisée par Jambu : 

d((a y b) ; c) = ci x d(a, c ) + ci 2 d(b , c) 4- a 2 d(a, b) + a A i{a) 

+ a 5 i(b) + ci 6 i(c) 4- a-\d{a , b) — d(b , c)| 

Pour qu’il n’y ait pas d’inversion, il faut que les coefficients vérifient : 

c, \ ^ ci 2 E ci 3 — 1 
£ 7 ( , a 2 , « 3 , ci 4 , a 5 , a () > 0 
« 7 >: - minfir, ; a 2 ) 

Ainsi la méthode du saut minimal consiste à prendre : 

A, — ci 2 — 1 / 2 , a 3 = a 4 — a 5 = a b = 0 , a-, — 1/2 


I 1.3.3 La méthode de Ward pour distances euclidiennes 

Si l’on peut considérer E comme un nuage d’un espace IR 7 ’, on agrège les individus qui 
font le moins varier l’inertie intraclasse. En d’autres termes, on cherche à obtenir à chaque 
pas un minimum local de l’inertie intraclasse ou un maximum de l’inertie interclasse. 

L’indice de dissimilarité entre deux classes (ou niveau d’agrégation de ces deux classes) 
est alors égal à la perte d’inertie interclasse résultant de leur regroupement. 

Calculons cette perte d’inertie. 

Soit g 4 et g Ll les centres de gravité de deux classes et g AW le centre de gravité de leur réunion. 
On a : 

_ Pa%a + Pflgfl 


où p A et p n sont les poids des deux classes (fig. 11 . 10 ). 
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g 



L'inertie interclasse étant la moyenne des carrés des distances des centres de classe au 
centre de gravité total, la variation d’inertie est égale à : 


P r \à\g,v g) + Pi)d 2 (Uuy g) “ (Pa + Pü)d 2 {%An, g) 


Un calcul élémentaire montre que cette variation vaut 


P a P B 
P a + Pli 


d\ g A , g fl ) (qui est donc 


positive). 

Si l’on pose : 


h(A,B) = -^-dHu, g„) 


P A + PB 

Cette méthode rentre dans le cadre de la formule de Lance et Williams généralisée car 
(Pa + PcMA, C) + (p B + p c )b(B, C ) - /? c 8(i4. B) 


5(04, B) ; C) = 


Pa + Pu + Pc 


on peut donc utiliser l’algorithme général. 

On notera que la somme des niveaux d’agrégation des differents nœuds de l’arbre est 
égale à l’inertie totale du nuage puisque la somme des pertes d’inertie est égale à l’inertie 
totale. 

Cette méthode est donc complémentaire de l’analyse en composantes principales et repose 
sur un critère d’optimisation assez naturel. Elle constitue à notre avis la méthode de classifica¬ 
tion hiérarchique de référence sur données euclidiennes. Tl ne faut pas oublier cependant que le 
choix de la métrique dans l’espace des individus conditionne également les résultats. 

I S .3.4 Classification de données qualitatives 

Lorsque les n individus à classer sont décrits par des variables qualitatives, divers cas se 
présentent. Pour les données de présence-absence, on utilisera un des indices de dissimilarité 
présentés au paragraphe 11.1.1.2. 

Pour des données du type p variables qualitatives à //i h m 2 , .. ., rn p modalités, on utilisera 
la représentation disjonctive complète : 


~0100 


oof 

1000 


001 


= X 
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La dislance du x 2 entre lignes du tableau possède alors des propriétés intéressantes : 


d\i, n = 2 ~(*~ 

j n -j 


L’indice de similarité associé à cl 2 est alors le produit scalaire du x 2 : ]>)— (x^x^) Xy étant 


égal à 0 ou 1. On voit que la similarité dépend non seulement du nombre de modalités 
possédées en commun par i et /' mais de leur fréquence, ce qui revient à dire que deux 
individus qui ont en commun une modalité rare sont plus proches que deux individus ayant 
en commun une modalité fréquente : cette propriété semble assez naturelle. 


On utilisera alors la méthode de Ward (puisque la distance x 2 est euclidienne) sur le tableau 
des distances. 


Une autre solution consiste à effectuer une classification hiérarchique sur le tableau des 
coordonnées des n individus après analyse des correspondances multiples de X. Tl faut pren¬ 
dre garde ici que ces deux approches ne seront équivalentes qu’à la condition d’utiliser tous 

i> 

les facteurs de T ACM (soit ^ m / ~ P )• En effet, une classification effectuée sur un trop petit 

;=i 

nombre de facteurs peut être fallacieuse car elle peut laisser de côté certaines particularités 
du nuage de points. Par ailleurs, il ne faut pas oublier de conserver la normalisation à a/\ de 
chaque axe car ceux-ci ont des importances différentes. Ces remarques sont valables égale¬ 
ment pour des classifications effectuées sur des composantes principales. 

La classification hiérarchique des lignes ou des colonnes d’un tableau de contingence 
s’effectuera avec la méthode de Ward et la distance du x 2 entre lignes (ou entre colonnes). 
Cette méthode revient à regrouper les catégories d’une variable qualitative de la façon 
suivante : a chaque étape, on réunit les deux catégories (en sommant les effectifs) qui font 
diminuer le moins possible le <p 2 puisque l’inertie totale est ici x~/n = ip 2 . 


I 1.3.5 Considérations algorithmiques 

L’algorithme général consiste à balayer à chaque étape un tableau de — —— distances 

ou dissimilarités afin d’en rechercher l’élément de valeur minimale, à réunir les deux indivi¬ 
dus correspondant, à mettre à jour les distances après cette réunion et à recommencer avec 
n — 1 objets au lieu de n. 

La complexité d’un tel algorithme est en n 3 (ordre du nombre d’opérations à effectuer) et 
on atteint rapidement les limites d’un ordinateur même puissant pour quelques centaines 
d’observations. 

Diverses techniques ont été proposées pour accélérer les opérations et pouvoir traiter des 
ensembles plus vastes d’individus. 

La méthode des voisinages réductibles (M. Bruynhooghe) consiste à n’effectuer les 
comparaisons de distances que pour celles qui sont inférieures à un seuil fixé. Il faut ensuite 
réactualiser ce seuil au fur et à mesure que la classification s’effectue. 

La méthode des voisins réciproques (Mac Quitty et J. P. Benzecri) consiste à réunir 
simultanément plusieurs paires d’individus (les voisins réciproques) à chaque lecture du tableau 




77enMéchodes de classification 


261 


des distances, la complexité de l’algorithme devient alors en ir. La recherche des voisins réci¬ 
proques s’effectue alors en chaîne : on part d’un objet quelconque et on cherche son plus proche 
voisin, puis le plus proche voisin de celui-ci, etc., jusqu’à aboutir à un élément dont le plus pro¬ 
che voisin est son prédécesseur dans la liste. On réunit ces deux éléments et on recommence à 
partir du nœud créé ou de l’avant-dernier élément de la liste jusqu’à création de tous les nœuds. 


11.4 MÉTHODES MIXTES POUR GRANDS ENSEMBLES 

La détermination du nombre de classes est relativement aisée en classification hiérarchique en 
étudiant le dendrogramme et en s’aidant de Phistogramme des indices de niveau. La coupure de 
l’arbre en k classes ne fournit cependant pas la partition optimale en k classes de l’ensemble en 
raison de la contrainte d’emboîtement des partitions issues d'une hiérarchie. Mais cette coupure 
fournit une excellente initialisation pour un algorithme de parti don ne ment de type nuées dyna¬ 
miques. De cette façon on peut résoudre pratiquement le problème épineux du choix du nombre 
déclassés d’une partition. Cependant les méthodes de classification hiérarchique ne sont pas uti¬ 
lisables lorsque le nombre d’individus à classer est trop élevé (supérieur à plusieurs milliers), alors 
que les méthodes de partitionnemenL ne connaissent pas ce genre de limites et sont très rapides. 

Le principe des méthodes mixtes, également apelées hybrides, tire parti des avantages des 
deux techniques. Concrètement, on procède de la façon suivante en trois étapes : 

1. Recherche d’une partition en un grand nombre K de classes (par exemple 100) avec 
une méthode de type nuées dynamiques 

2. Regroupement hiérarchique des K classes à partir de leurs centres de gravité et 
détermination d’une coupure en k classes 

3. Consolidation : amélioration de la partition en k classes par une méthode de type 
nuées dynamiques 

11.5 CLASSIFICATION DE VARIABLES 

La plupart des méthodes exposées précédemment ont été conçues pour classer des individus. 

Lorsque l’on veut faire des regroupements de variables, il convient de prendre certaines 
précautions car la notion de distance entre deux variables pose souvent de délicats problè¬ 
mes dus à la nature des variables. 

11.5.1 Variables numériques 

Pour des variables numériques, le coefficient de corrélation linéaire constitue l’indice 
naturel et 1 — r est alors un indice de dissimilarité qui est en plus une distance euclidienne. 

On peut alors utiliser la méthode hiérarchique de Ward et celle des nuées dynamiques 
puisque l’on dispose d’une distance euclidienne. 

Une variante consiste à utiliser les coordonnées des variables sur des axes factoriels. 

Mentionnons également la méthode divisive (ou descendante) disponible dans le logi¬ 
ciel SAS (procédure varclus) qui revient à déterminer les groupes de variables les plus 
unidimensionnels possible au sens où l’ACP de chaque groupe ne fournit qu’une seule 
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dimension : une seule valeur propre supérieure à 1. L’algorithme est sommairement le 
suivant : on part de l’ensemble des p variables et on effectue une ACP. Si il n’y a qu’une 
seule valeur propre supérieure à 1. on s’arrête. Sinon on classe les variables en deux grou¬ 
pes selon leurs proximités avec la première ou la deuxième composante principale. On 
recommence alors la procédure dans chaque groupe. 

I S.5.2 L’approche de Lerman et l’algorithme 
de la vraisemblance du lien 

Pour des variables qualitatives, un problème vient du fait que les mesures de liaison ne 
sont comparables que pour des nombres égaux de catégories, ou du degré de liberté du 
couple. 

I. C. Lerman a proposé de remplacer la valeur de l’indice de similarité entre variables de même 
nature (corrélation, y 2 , etc.) par la probabilité de trouver une valeur inférieure dans le cadre de 
l’hypothèse d’indépendance (appelée << absence de lien »). Ainsi, au lieu de prendre r, on prendra 
P(R < r). L’avantage est incontestable pour les mesures de similarité entre variables qualitatives 
qui deviennent dès lors comparables indépendamment des nombres de catégories : un xi égal à 
4 correspond à une similarité de 0.6 alors qu’un \ w égal à 5 correspond à une similarité de 0.12. 

L’algorithme de la vraisemblance du lien (AVL) consiste alors à utiliser comme mesure 
de proximité entre deux groupes A et B de m et / variables respectivement, la probabilité 
associée à la plus grande valeur observée de l’indice probabiliste de similarité. 

Soit: t ( j - sup s(„v, v) 

.x e a 

y BU 

où s(x, y) = P (R < r(a\ v)) par exemple. 

Dans l’hypothèse d’absence de lien, on a : 

P(sup ,v(a\ y) < t) = t m 

x B A 

(voir chapitre 12, paragr. 12.1.3.2), d’où : 

P( sup s(a\ y) < t) = (("')' = t "' 1 
.x e a 

X B U 

On prendra donc comme indice de dissimilarité entre A et B : 

On peut alors obtenir une classification hiérarchique des variables. 

I 1.6 EXEMPLES 

Reprenons ci-dessous les différents exemples déjà étudiés dans les chapitres précédents, pour 
montrer la complémentarité entre les méthodes factorielles et les méthodes de classification. 

I 1.6.1 Données voitures 

Les données étant euclidiennes, on utilisera tout d’abord la méthode de Ward sur données 
réduites. 
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Le tableau suivant donne l’historique des regroupements. On vérifie que la somme des 
indices de niveau (ou somme des pertes d’inertie) est égale à l’inertie totale. L’appellation 
« aîné » « benjamin » est sans signification et ne fait que désigner les deux éléments réunis. 
On constate des sauts importants après le nœud 34 quand on passe de 3 classes à deux classes. 
Une coupure de l’arbre en 3 classes est alors naturelle. 


DESCRI PTIOH DES NOEUDS 


TJM. 

AINE 

BEMJ 

EFF. 

POIDS 

INDICE 

HISTOGRAMME DES INDICES DE NIVEAU 

19 

12 

7 

2 

2.00 

0.01417 

- 

20 

16 

5 

2 

2.00 

0.02432 

* 

21 

*3 

3 

2 

2.00 

0.03061 

* 

2 2 

18 

4 

2 

2.00 

0.03581 

** 

23 

17 

14 

2 

2.00 

0.04593 

** 

24 

21 

15 

3 

3.00 

0.06556 

** 

25 

S 

2 2 

3 

3.00 

0.07693 

*** 

26 

20 

11 

3 

3 .00 

0.08478 

’** 

27 

2 

19 

3 

3.00 

0.11771 

** + * 

2 S 

25 

10 

4 

4.00 

0.12435 

**** 

29 

23 

27 

5 

5.00 

0.17459 


30 

9 

13 


2.00 

0.22307 

**"**** 

31 

23 

1 

5 

5.00 

0.23349 

+ ****»•* 

32 

26 

2 4 

6 

6.00 

0.36099 

■jrKklr'Kkit'k'kk'k 

33 

2 9 

32 

11 

11.00 

0.52497 

■kk-k-rkir'B-k-kk+r'x-irk'klr 

3 4 

30 

33 

13 

13.00 

1.0G604 

* k**-k-rk** + +k**-ki'-k + *-k*-k-r-k + * + + + +i' 

35 

34 

31 

18 

18.00 

2.79117 


•IME 

DES INDICES DE 

NIVEAU 

= 6 . 

.00000 




RENAULT-30- TS 

DATSUN-200L 

OPEL-REKORD-L 

TAUNUS-2000-GL 

AUDI-100-L 

PRINCESS-1800-HL 

PEUGEOT-504 

MAZDA-9295 

FIAT-132-1G00GLS 

ALFETTA-1.66 

LANC1A-BETA-1300 

SIMCA-1307-GLS 

RANCHO 

RENAULT-16-TL 

LADA-1300 

CITROEN-GS-CLUB 

TOYOTA-COROLLA 

ALFASUD-Ti-1350 


Figure 11.1 I 
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La coupure en 3 classes semble optimale car aucune amélioration n’est obtenue après 
passage d’une méthode de centres mobiles : 

CONSOLIDATION DE LA PARTITION AUTOUR DES 3 CENTRES DE CLASSES, REALISEE PAR 
10 ITERATIONS A CENTRES MOBILES ; PROGRESSION DE L'INERTIE INTER-CLASSES 


ITERATION 

I.TOTALE 

I.INTER 

QUOTIENT 

0 

6.00000 

3.85720 

0.64287 

1 

6.00000 

3.35720 

0.64287 

2 

6.00000 

3 . 85720 

0.64237 


ARRET APRES L'ITERATION 2 L'ACCROISSEMENT DE L'INERTIE INTER-CLASSES PAR RAP¬ 
PORT A L'ITERATION PRECEDENTE N'EST QUE DE 0.000 %. 

La figure suivante donne dans le plan 1-2 la visualisation des 3 classes. 



Figure 11.12 


Ces 3 classes correspondent pour l’essentiel à la taille des individus 

I 1.6.2 Vacances 

Reprenons maintenant le tableau de contingence étudié en 9.3 avec une AFC. 

La distance du khi-deux entre profils-lignes ou profils-colonnes étant une disatnce eucli¬ 
dienne, il est ici possible d’effectuer deux classifications, l’une sur les lignes, l’autre sur les 
colonnes du tableau de contingence . 

11.6.2.1 Classification des professions 


HUM. 

AINE 

B EH J 

EF F 

POIDS 

INDICE 

HISTOGRAMME DES INDICES DE NIVEAU 

9 

6 

5 

2 

5027.00 

0.00239 


10 

n 

1 

2 

1375.00 

0.00274 


11 

4 

10 

3 

5162.00 

0.00473 


12 

o 

8 

3 

5419.00 

0.00537 


13 

3 

li 

4 

9511.00 

0.01107 


14 

i ? 

13 

7 

14930.00 

0.03125 


15 

7 

U 

8 

18532.00 

0.04930 

kkn±-1>'k*kkirk-* kkknA'k'trkk-xk-lrk-K'k'kk kk-rk-kik: fi 

SOMME 

DES 

INDICES 

DE 

HIVEAU = 

0.10734 
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Retraités 
Ouvriers 
Employés 
Autres inactifs 

Cadres et professions intellectuelles supérieures 
Professions intermédiaires 
Artisans, commerçants, chefs d'entreprise 
Agriculteurs 


Figure 11.13 


11.6.2.2 Classification des modes d'hébergement 


HUM. 

AIME 

2 EN J 

EFE. 

POIDS 

INDICE 

HISTOGRAMME DES INDICES DE NIVEAU 

10 

2 

S 

2 

3479.00 

0.00025 

* 

11 

4 

9 

2 

6936.00 

0.00276 

** *** 

12 

3 

1 

2 

4364.00 

0.00660 

*«*-*„*«* + „ 

13 

7 

6 

2 

1903.00 

0.00674 

************ 

14 

11 

13 

4 

3839.00 

V.D 

O 

O 

O 

★ ■*■*•**»•*• * *■*•*★♦* 

15 

10 

5 

3 

5329.00 

0.00969 

*-**/rW + * + ** + ***4, 

16 

14 

15 

7 

14j68.00 

0.0J 974 


17 

16 

12 

g 

18532.00 

0.05291 

+ + + V ^ + -A vt -k ■* 

SOMME 

DES INDICES 

DE NIVEAU = 

0.10734 



On vérifie dans les deux cas que la somme des indices de niveau est bien égale au phi- 
deux de Pearson. 

On constate que l'on pourrait regrouper aussi bien les lignes que les colonnes en 
3 modalités. 



RPPA 

VILLAGEV 

CARAVANE 

TENTE 

LOCATION 

AJ 

RSPA 

RSEC 

HOTEL 


Figure 11.14 
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I 5.6.3 Races canines 

Les données du chapitre 10 concernant 27 races canines ont été soumises à une classifi¬ 
cation ascendante hiérarchique selon la méthode de Ward sur les 10 composantes de l’ana¬ 
lyse des correspondances multiples. 

On trouve ci-après la liste de formation des nœuds et le dendrogramme (fig. 11.15) et 
tableau J 1.2. Il est clair qu’une coupure est à effectuer au-dessus du nœud n°50 (coude dans le 
diagramme des indices de niveau) et que l’on distingue nettement quatre classes homogènes, 
ces classes sont ici voisines de celles obtenues par la méthode des centres mobiles. 


CLASSE 1 


eusse 2 


eusse a 


eusse j 


Beauceron 

Colley 

Setter 

Pointer 

Berger al. 

Dobermann 

Levrier 

Fcx-haund 

Epagneul F 

Bleu Gûsc. 

Dciguo 

Mastilf 

Bull-Mastiff 

St Bernard 

Terre-Neuve 

Cocker 

Epagneul B 

Boxer 

Labrador 

Dalm.ilion 

Fût Terrier 

Caniche 

Teckel 

Bull-dag 

Basset 

Chihuahua 

Pékinois 



Figure 11.15 
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Tableau ! 1.2 




CL 

ASSIE 

ICATION A 

SCENDAliTE 

HIERARCHIQUE : DESCRIPTION DES NOEUDS 

num. 

AIME 

BEU J 

EF?. 

FOI DS 

INDICE 

HISTOGRAMME DSS INDICES DE NIVEAU 

2 a 

13 

11 

2 

2.00 

0.00000 

- 

29 

a 

22 

2 

2.00 

0.00000 

* 

30 

26 

5 

2 

2.00 

0.00000 

* 

31 

10 

i 

2 

2.00 

0.01236 

*** 

3 2 

12 

3 

2 

2 . . 00 

0.0123 6 

*** 

33 

16 

20 

2 

2.00 

0.01236 

'** 

34 

24 

2 7 

2 

2.00 

0.01236 

*** 

3 5 

2 8 

A 

3 

3.00 

0.01648 

**** 

3 a 

21 

13 

2 

2.01) 

0.01759 

-’** 

37 

i 5 

2 5 

2 

2.00 

0.01963 

**** 

33 

32 

23 

3 

3.00 

0.02060 

♦*** 

39 

18 

33 

3 

3.00 

0.03036 

****** 

40 

3 4 

6 

3 

3.00 

0.03119 

****** 

41 

3 5 

14 

4 

4.00 

0.03251 


42 

7 

17 

2 

2.00 

0 

******* 

43 

29 

2 

3 

3.00 

0.03297 

******* 

44 

37 

31 


4.00 

0.04074 


45 

4 3 

30 


5.00 

0.04698 

********* 

46 

4 0 

3 6 

B 

5.00 

0.04939 

********** 

47 

41 

9 

5 

5.00 

0.06935 

************* 

48 

39 

4 4 

7 

7.00 

0.07612 

*************** 

4 9 

4 5 

42 

7 

7.00 

0.07098 

*****’***“**** 

50 

33 

48 

10 

10.00 

0.08497 

*.*. *-.«**« ■“***» 

51 

46 

50 

15 

15.00 

G .22780 

****.#* + + *»*lr#lrf**»***r*M*«**i***lHit*H + >irt 

52 

49 

4 7 

12 

12.00 

0.27570 


53 

52 

51 

2:7 

«O 

O 

O 

0.43314 

à*».«*,.,». < *.*.**..**■*** 

SOMME 

DSS 

INDICES 

DE 11 

IV EAU = .1 

.66657 



,1 . 66657 
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Représentation des individus et des centres de gravité des classes dans le premier plan factoriel 
Facteur 2 



Figure 11.16 


Facteur 1 





inférentiel 




Distributions des 
caractéristiques 
d’un échantillon 


Le problème central de l'inférence statistique est rappelons-le, le suivant : disposant 
d’observations sur un échantillon de taille n on désire en déduire les propriétés de la population 
dont il est issu. Ainsi on cherchera à estimer, par exemple, la moyenne m de la population à par¬ 
tir de la moyenne x d’un échantillon. Ceci n’est possible que si l’échantillon a été tiré selon des 
règles rigoureuses destinées à en assurer la « représentativité » (voir chapitre 20). Le mode de 
tirage le plus simple et aussi le plus important est l’ échantillonnage aléatoire simple cor¬ 
respondant à des tirages équiprobables et indépendants les uns des autres. Dans ces conditions 
les observations deviennent des variables aléatoires ainsi que les résumés numériques usuels : il 
convient donc d'en chercher les lois de probabilité avant de tenter d’extrapoler à la population. 

m Exemple : On prélève au hasard n ampoules électriques dans une production et on mesure 
leurs durées de fonctionnement. Si les caractéristiques de fabrication n’ont pas varié d’une 
ampoule à l’autre, les différences entre les x,- peuvent être considérées comme des fluctuations 
de nature aléatoire. mm 

Cette dernière remarque justifie l'hypothèse fondamentale de la théorie de l'échantillonnage : 
les valeurs observées .y, sont des réalisations d’une même variable aléatoire A, appelée variable 
parente. Dans notre exemple, ceci revient à postuler l’existence d’une variable abstraite, la durée 
de vie d’une ampoule de type donné, fabriquée dans des conditions données. 

On peut cependant introduire aussi le modèle suivant : à chaque individu i tiré, on associe 
une variable aléatoire X-, dont on observe une seule réalisation ,v ( (exemple : X, est la durée de 
vie de l’ampoule n° i qui, une fois l’expérience faite, a pris la valeur .v ; ). 

L’hypothèse formulée plus haut revient alors à dire que les A,- sont des variables aléatoires 
ayant toutes la même distribution, celle de X. Pour des raisons de commodité, on supposera 
généralement les X t mutuellement indépendantes (dans certains cas, l’indépendance deux à 
deux sera suffisante). 

On a donc la double conception suivante, qui est à la base de la statistique mathématique : 
les valeurs observées (.y,, _y 2 , .. ., xJ constituent n réalisations indépendantes d’une variable 
aléatoire X ou encore, une réalisation unique du /z-uple (A,, A 2 ,..., AJ où les A/ sont n varia¬ 
bles aléatoires indépendantes et de même loi. 
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Par extension, nous appellerons désormais échantillon le M-uple de variables aléatoires 
(X„X 2 . X„). 

La théorie de f échantillonnage se propose d’étudier les propriétés du M-uple (X { ,X 2 ,. . X„) 
et des caractéristiques le résumant, encore appelées statistiques, à paitir de la distribution sup¬ 
posée connue de la variable parente X , et d’étudier en particulier ce qui se passe lorsque la taille 
de l’échantillon est élevée. 

Il est d’usage de résumer les n valeurs d’un échantillon a*,, as, . . x„ par quelques carac¬ 
téristiques simples telles que moyenne, plus grande valeur, etc. Ces caractéristiques sont 
elles-mêmes des réalisations de variables aléatoires issues de X 2 , . . ., X n . 

Définition 

L Une statistique T est une variable aléatoire fonction mesurable de X h X->, . . ., X n . 
T — f(X h X 2 , . . ., X„). 

Une statistique peut être à valeurs dans IR ou R p ; dans le cas de I? 7 ’, on parlera de statis¬ 
tique vectorielle. 

Les premiers paragraphes de ce chapitre sont consacrés au cas des échantillons d’une 
variable aléatoire réelle. On donnera ensuite quelques résultats concernant les échantillons 
de vecteurs aléatoires. 


S 2.1 FONCTION DE RÉPARTITION D’UN ÉCHANTILLON, 
STATISTIQUES D’ORDRE ET QUANTSLES 

12.1.1 Fonction de répartition empirique d’un échantillon 

Désignons par F*(x) la proportion des n variables X u X 2 , . . X„ qui sont inférieures 
à x. 

F,f( A') est donc une variable aléatoire pour tout a qui définit ainsi une fonction aléatoire 
appelée fonction de répartition empirique de l’échantillon, dont les réalisations sont des 
fonctions en escalier de sauts égaux à 1 /m (fig. 12.1). 



Figure 12.1 
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Si les X,- sont ordonnés par valeurs croissantes : 


F* (A) = 0 

Si A < A, 

F*U) = — 

Si A; _ | ^ A < 

n 


F*( -v) - 1 

si A > A„ 


12. S .2 Convergence de F*(x) vers F(x) 

Ces trois théorèmes sont fondamentaux et justifient l’usage des échantillons en statistique. 

Théorème I 

| Pour tout x, on a F* (a) F(x). 


m Démonstration : A a fixé, soit Y le nombre aléatoire de valeurs inférieures à .v, qui est 
une somme de variables de Bernoulli de paramètre F(x). D'après ce qui précède F,f (a) qui 
n’est autre que Y/n converge presque sûrement vers la probabilité F(x). m 


Théorème 2 (Glivenko-Cantelli) 


La convergence de F if vers F est presque sûrement uniforme, c'est-à-dire que : 
D„ = sup|F*(.v) - F(a)| -■» 0 


» Démonstration : voir Renyi, chapitre 7, p. 378. mm 

Théorème 3 (Kolmogorov) 



Ce théorème signifie que la distribution asymptotique de la variable aléatoire D„ est 
connue et ne dépend pas de la variable de départ X, et permet de calculer des limites 
pour les valeurs de D„. La loi exacte de la variable D„ a été tabulée (table A 1.14 du 
recueil). 


i 2. ! .3 Échantillons ordonnés et lois des valeurs extrêmes 

Soit X], X 2 , ■ . X n un «-échantillon d’une variable aléatoire X. Les réalisations 
A'|, x 2 , ■ ■ -, -v„ peuvent être réordonnées en y,, y 2 , . . _v„ où _V| < y 2 < . . . < y„, les 
y; constituent une permutation particulière des x h Les y,- sont des réalisations du n-uple 
de variables aléatoires (Y,, Y 2 , . . Y„) qui constitue l’échantillon ordonné de X. Soit 

F(.t) la fonction de répartition de X de densité /(a) et H k et li k les fonctions de répartition 
et densité de Y k . 
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12.1.3.1 Loi de Y, = infX, 

n 

On a P(Y l < y) = 1 — P(7, > y) et /^(inf > y) = nw > y) donc : 


//,(v) = 1 - [I - F(y) J" 

/î i(y) = /i[! - F(v)]”-'/(.v) 


12.1.3.2 Loi de Y„ = sup X, 

P(Y„ < y) = Ô W < .v) 


«„(.v) = [F(.y)]" 

/i„(y) = »fF(.v)]''~ '/(>’) 

Ces deux lois servent en particulier pour la détection des valeurs « aberrantes » dans un 
échantillon : valeurs « trop » petites ou « trop » grandes. 

ssa Exemple : On sait que pour une loi LG(w ; cr) il y a une probabilité 1.35%c de dépasser 
m + 3ct. Sur un échantillon de 100 observations la probabilité qu’il y en ait au moins une qui 
dépasse m + 3or monte à 1 — (0.99865)'°° = 0.126. Si inversement on cherche quelle est la 
valeur que 7„ a une probabilité 1.35%o de dépasser on trouve : F(y„) = (0.99865) 1/ " soit pour 
n = 100 environ m + 4.3o\ m 

12.1.3.3 Loi de l’étendue W 


w = Y n - y, 

La loi du couple (7,, Y n ) s'obtient en écrivant : 

P((Y i < y,) H (7„ < y,,)) = P(Y„ < y„) - P((Y„ < y J n (7, > y,)) 

= (F(y„))" - (F(y n ) - F(y } ))" 

d’où la densité du couple K, Y n en dérivant deux fois : 

Ky\ ,v,.) = n(n - 1 )(F(y„) - F(y } )Y~ 2 f(y„)/(>' i) 

Avec le changement de variables (7,, 7,J —*■ (7,, IL) on obtient la fonction de répartition 
de W : 

G(w) = n[F(x + vr) - F(A-)]' , -'/(.v)dA- 
J R 

et sa densité : g(w) = n(n — 1) [ F(x + vv) — F(x)]"~ 2 f(x)f(x + tt-Od.v 

Jeî ' 

On trouve alors : E(\¥) = (1 - (F(x)) n - (1 - F(x))")dA- 

Jfï 

en intégrant par parties E(Y n ) — E(Y |). 
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12.1.3.4 Loi de Y k 

Appelons R„(x) le nombre de répétitions de l’événement X < x en n expériences indépen¬ 
dantes, qui suit donc une loi binomiale : 

P(R„(x) = i) = C'[Ra)]'[1 - Ra)]"~' 

L’événement Y k < a peut être obtenu de plusieurs manières, soit que les k premières 
valeurs de X soient inférieures à .v et elles seules, soit qu’il y en ait k + 1, etc. 

Donc : P(Y k < x) = ic;,[RA)]'[l - Ra)]"-' 

i—k 

L’événement x < Y k < x + dA se réalise si un des x , est compris entre x et x + dA, si 
( k — 1)a ( - sont inférieurs à a et si les n — k restant sont supérieurs à a. Les probabilités 
respectives de ces différents événements sont f(x)dx, [Ra)]* -1 , [1 — Ra)]" - *. Il y a 
n manières de réaliser le premier événement et C ;;1 \ manières de réaliser les deux autres 
(C*I 1 façons de choisir les a, inférieurs à a. les autres étant alors supérieurs) : 

h k (x) = nC^-\[F(x)] kl] [\ - F(x)]’'- k f(x) 


F(Y k ) suit donc une loi bêta I de paramètres k et n — k + 1. 

12.1.3.5 Résultats asymptotiques pour les extrêmes 

L’étude du comportement de 7, et Y n lorsque n —> =» est l’objet de la théorie des valeurs 
extrêmes dont nous donnons ci-dessous quelques résultats. Nous nous bornerons à étudier 
Y„ puisque Lj = — sup(— ~X 2 , . . ., —X„). 

Remarquons que si n —* œ : 

(Ry))" ^0 si F(y) < 1 

(Ry))' 1 —* 1 si F(y) - 1 

ce qui est sans intérêt. Il convient plutôt de rechercher s’il existe des coefficients a n et b n 
tels que a„Y n + b n tende vers une limite non dégénérée, par une opération semblable au 
centrage-réduction dans le théorème central-limite. 

La méthode est la suivante : soit G(y) la loi limite de ci n Y n + b„. Puisque la plus grande des 
Nn valeurs X { . X 2 , .. X Nn est aussi la plus grande des N maxima suivants : sup(X,, X 2 ,..X„) ; 
sup(X (1+1 ,.. ., ;... ; sup(A w _ n „ ;.. . X Nn ) on doit avoir : 

(G(y)) N = G(a x y + b N ) 

On démontre alors que les seules solutions de cette équation fonctionnelle sont les suivantes 
pour X non borné : 

- type I : G(y) = exp(—exp(— y)) loi de Gumbel obtenue si 1 — Ra) tend vers 0 comme 

exp(— a) quand a —> ; 

- type II : G(y) = exp(—y w ) ; y > 0 loi de Weibull (ou de Fréchet) si 1 — Ra) tend 
vers 0 comme a~ a quand a —> œ (voir chapitre 2, paragr. 2.3.8 et 2.3.9). 
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Ceci permet en pratique de pouvoir faire les approximations suivantes si n est très grand : 
H„(y) = exp^-exp^-^-y^ ou ex p(“(^~y^) j 

12.1.3.6 Distributions asymptotiques des quantités 

Si F est continue, rappelons que le quantile d’ordre p noté q p est la valeur de .v telle que 
F(x) = p. Le quantile empirique d'un «-échantillon Q p est égal à F[, V ,]. H où [np] est la partie 
entière de np supposé non entier. 

On démontre (voir Fourgeaud-Fuchs, 1972) que si n —■* =o : 


D’où en particulier pour la médiane : 



" g in) 


LG 



2/(9i/:)■ 


12.2 DISTRIBUTIONS D’ECHANTILLONNAGE 
DE CERTAINS MOMENTS 


12.2.1 Étude de la statistique X 

Définition 

La statistique X ou moyenne empirique de Véchantillon est : 

— 1 " 

x = -£x ( . 

«i=i 


I2.2.LI Propriétés élémentaires 

Soit m et cr l’espérance et l’écart-type de la variable parente ; on a alors : 




•> 

— CT" 

E(X) = m 

et 

V(X) = — 



n 


œs Démonstration : 


_ i » 1 

E(X) = - 2 F(X ; ) = -nm = m 


n l = 


i = i 


v(X) = -v = -2^) = - 


)UJ~ 




-i 

cr _ 

n 


d’après l’indépendance des X,-. 
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Si |x 3 et jjl 4 sont les moments centrés d’ordre 3 et 4 de X on a : 


M*) = ^ 

;r 


et 


,- x |x 4 + 3 ct 4 (/ï - 1) 

to(X) =-4- 


On en déduit : 


y,(X) = ^ 

V/l 


et 


y 2 (X) = 3 + 



où 7i et 7 2 sont les coefficients d’asymétrie et d’aplatissement de X. 

Lorsque n ^ «=, V(X) —> 0, il s’ensuit que X converge en moyenne quadratique vers 
m puisque E[(X — m) 2 \ —■* 0. 

Ce dernier résultat est une forme des lois des grands nombres que nous allons énoncer 
sous un aspect plus général. 

On voitjie plus que si n —> =°, 7 j(X) 0 et 7 2 (X) —» 3, ce qui traduit la normalité asymp¬ 
totique de X. ma 


12.2.1.2 Lois des grands nombres 

Elles sont de deux types : lois faibles mettant enjeu la convergence en probabilité et lois 
fortes relatives à la convergence presque sûre. 

Nous considérons ici des suites de variables aléatoires X,, X 2 , .. ., X n non nécessairement 
de même loi. 

• Loi faible des grands nombres 

Soit X,, X 2 , . . ., X„ indépendantes d’espérance niy, m 2 , . . ., m n finies et de variance 
crj, en, . . ., (j\ finies. 

[ " ] « _ 1 » 

Si - Y m , —> m et si — Y 07 —■> 0, alors X = - YX,- est tel que : 

1 "-,= 1 "i=i 


X 


ni 


• Loi forte des grands nombres 


1 " 

Soit X,, Xn, . . ., X„ indépendantes telles que - Y/ii -> m 

11 1= 1 

alors : 


, v °7 
et y, — 

i = ! 1 


est convergente ; 


X 


ni 


(Pour la démonstration, cf. Renyi, chapitre 7). 
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Application : Cas des échantillons : on voit aisément que X —* m car la condition 

i i~ 


convergente est réalisée puisque : 


V* % -> V 1 

■ 2 ^ o 

/= 1 r /= I r 


et Ton sait que la série converge. 


• Distribution 


Le théorème central-limite établi au chapitre 2 peut s’écrire : 


X - m a: 


CT 




U LG(0, 1) 


Il suffit en effet de poser : X ] + X 2 + • • ■ + X„ = nX. 
Ce résultat est d’une importance capitale en statistique. 


12.2.1.3 Application : loi d’un pourcentage 


On prélève indépendamment et avec remise n individus d’une population séparée en deux 
sous-populations A et A de proportions p et 1 — p (pièces défectueuses ou correctes dans une 
production industrielle par exemple). 

Soit K le nombre d’individus de la sous-population A obtenus dans l’échantillon. On sait 
que K suit une loi binomiale S9(/i ; p). 

Notons F = K/n fa fréquence empirique de la catégorie A. 

F est la moyenne arithmétique de n variables de Bernoulli de paramètre p indépendantes. 


On a donc : 


E(F) = p 


V(F) = 


PU - P) 

n 


et si n est grand F — LGl p : 




en raison du théorème central-limite. 


La convergence de F vers p , connue sous le nom de théorème de De Moivre-Laplace, est 
une des premières applications de la loi des grands nombres. Ce résultat a inspiré la théorie 
fréquentiste des probabilités (voir chapitre 1). 

Application numérique : Comme pour la loi binomiale l’approximation gaussienne de 
F est valable si np et n( 1 — p) sont tous deux supérieurs à 5. 

Ainsi pour un échantillon de 400 pièces issues d’une fabrication où 10 % sont défectueuses, 
on peut s’attendre à trouver dans 95 % des cas un pourcentage de défectueux dans l’échantillon 

^ /0.10 X 0.90 

compris entre 10 % ± 1.96 y --, soit 9.7 % < F < 10.3%. 
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12.2.2 Étude de la statistique S 2 


DÉFINITION 

La statistique S 2 ou variance empirique d'échantillon est : 

s 2 = -ï(x,. -X) 2 

i 


12.2.2.1 Propriétés 


1 / " ' _ 

= -[ S-’Tr - (JO 2 

«\/= I 


ms Démonstration : Il suffit de développer. 

* Convergence presque sûre de S 2 vers a 2 
D’après les lois des grands nombres : 


) -»• E(x 2 ) 


S - E(X 2 ) - [E(X)] 2 = O -2 


et : X 2 -> [E(X)] 2 

ps 

donc : 

• Décomposition de S 2 

Partons de X,- ~ tn = X,- — X + X — m. 


;= î 


On a alors : 2(X f - ni) 2 = 2(X,- - X) 2 + Ë(X “ >"Ÿ + 2(X - m)2(X ; - X) 

/=] i=i /=i 

71 _ 

Comme ^(X,• — X) = 0. on trouve : 

/= i 

- i(X { - m) 2 = - É(X, - X) 2 + (X - I//) 2 
S 2 - - 2(X f - m) 2 - (X - i/î) 2 

»,= i 

• Biais de S 2 
Théorème 

1 ^ ^ 1 
1 E(S~) = -o~ 

! Il 


Ce théorème montre que EiS 2 ) =#= ct 2 . On dit que S 2 est une statistique biaisée pour a 2 . 
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ra Démonstration : 


E(S 2 ) = - - ni) 2 “ E(X - w) 2 

n /=, 

I » _ | n rj 2 

= - Y,V(X,) - V(X) = - ËtT 2 - - = a- 

«/= I »i=I " 

Le biais vaut a 2 /» et tend donc vers 0. 

• Vor/once de S 2 

Un calcul dont la longueur est la seule difficulté montre que : 

V(S 2 ) = 3 \ (n - l)jx 4 — (n - 3)ct‘*] 


et si n —* » : 


L(S 2 ) 


Mm - cr 


La variance S 2 étant biaisée et ayant donc tendance à sous-estimer cr 2 , on utilise 
fréquemment la variance corrigée dont l’espérance vaut exactement ct 2 : 


s * 2 = — ^-- s 2 = —- *) 2 

;/ — I 77—1 f= | 


E(S* 2 ) = a 2 

Cependant, l'écart-type corrigé 5* reste biaisé pour a car : 

^(Vs* 2 ) ± 'iË{S^ 2 ) 


mais est asymptotiquement sans biais. 

Il n’existe pas d’expression générale donnant E(S*) pour toute distribution. On verra plus 
loin une formule exacte dans le cas où les Xj suivent des lois normales. 

12.2.2.2 Théorème limite pour S 2 

n - 1 ■> 

S —-cr 

77 Z 


^V(S 2 ) 

ce qui peut s’écrire avec l’approximation précédente 


U € LG(0, 1) 


r* ? 1 

S -CT" 




Vü Ue LG(0, 1) 


/fx 4 - cr 

12.2.2.3 Corrélation entre X et S 2 

Cherchons cov(X, S 2 ) : 

cov(X, 5 2 ) = E 


, . 77 — 1 . 

(X - 777 ) S~ - cr- 
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Nous pouvons supposer sans nuire à la généralité que m — 0, car on sait que la covariance 
est insensible à un changement par translation sur un des termes : 


cov(X, S 2 ) - E(XS 2 ) 
E(XS 2 ) - E 


LV»« = i JUjti J 


-Ei&iï&jÏÏ - E(X 2 ) 


= ~E 

n~ 


E(X 3 ) 


22*,*7 

i J 

Hï xj ) - Mp) 


car E(X t Xj) = 0 pour /' A j à cause de l’indépendance : 

r/v cA _ ^3 M<3 _ « “ 1 

E(X, S -)-t =-— Mo 

II 71 " /)- 


Avec la formule établie précédemment pour V(S 2 ), on trouve que 


P(X',S 2 ) 


M-3 



n — 3 
n ~ 1 


CT 


4 


et n’est donc nul que si jx-, est nul, ce qui est le cas des distributions symétriques. 

Il faut se garder de passer de la non corrélation à l’indépendance et nous verrons dans un 
paragraphe suivant que X et S 2 ne sont indépendants que si X suit une loi de Laplace-Gauss. 


12.2.3 Cas des échantillons gaussiens 

On suppose maintenant que X e LG(m, ct) : 


12.2.3.1 Loi de X 

X combinaison linéaire de variables de Laplace-Gauss est aussi de Laplace-Gauss et 

— / CT 

Xe LG m,-p 

\ V7! 

Il s’agit ici d’une loi exacte. 

12.2.3.2 Loi de S 2 et indépendance entre X et S 2 

D’après la décomposition de S 2 on peut écrire : 

2(Xj - m) 2 = i(X, - X) 2 + n(X - m) 1 
1=1 1=1 
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Divisons par cr 2 de chaque côté : 

i=|\ CT 


ni 


•K + fe) 2 

o~ \ a/V/t / 


Nous sommes dans les conditions d’application du théorème de Cochran. 

Le premier membre est une somme de n carrés de variables centrées réduites et suit donc 
un xîi- Le deuxième membre est constitué de la somme de deux formes quadratiques sur ces 

( Ÿ j \2 /j5“ 

- — j de rang n — 1 pour —— : en effet X est lié aux X,- et l’on 

a/'ln / o -- 

71 _ 

a la relation ^ {X; - X) = 0. 

i=i 

On en déduit les deux résultats suivants : 

Théorème I 

1 nS 2 . , . . , 

I —— suit une loi de x^-i 

1 CT" 


Théorème 2 


X et S 2 sont indépendants 


On peut de plus démontrer la réciproque du théorème 2 : si X et S 2 sont indépendants alors 
X est LG {nu o-), il s’agit donc d’une propriété caractéristique. 


» X — m r n nà~ , 

Application : Puisque-V» e LG(0, 1) et—- e xâ-i on aura : 

CT ~ " 

X - m 


nS 2 

T 

cr^ 


■r» 


X - m 


! J |-1 


nS 2 


'In - 1 


{n — l)cr 2 


où 7„_| est une variable de Student à n — 1 degrés de liberté. 

Ce résultat est extrêmement utile car il ne dépend pas de cr et servira donc chaque fois 
que ct est inconnu. 

m Exemple : On prélève 25 pièces dans une production industrielle. Une étude préalable a 
montré que le diamètre de ces pièces suivait une loi gaussienne LG (10 ; 2). Entre quelles valeurs 
a-t-on 90 chances sur 100 de trouver le diamètre moyen de ces 25 pièces et leur écart-type ? 

* LG ( 10; è) 

2 - 2 

avec une probabilité 0.90 on trouvera 10 — 1.64-= < X < 10 + 1.64-= soit 

V25 V25 

9.34 < X < 10.66 car pour la variable centrée-réduite U : P{— 1.64 < U < 1.64) = 0.9. 
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nS 2 

Comme —- 


X.3-1 


on se reporte aux tables de la loi du xii- En prenant conventionnel- 


CT“ 

Iement des risques d'erreur symétriques on trouve : 


255- 

13.848 < —— < 36.415 (fig.12.2) 
4 



d’où 1.49 < 5 < 2.41. 

12.2.3.3 Espérance et variance des principales caractéristiques 
d’un échantillon gaussien 

Le tableau 12.1 récapitule les résultats : 

I /nY'i.x, - xŸ 1 - x) A 

_ i=i _ /=i 


Tableau 12.1 


Statistique 

Espérance 

Variance 

X 

m 

ct 2 /» 

S 2 

n ~ 1 

2 (n - 1) 4 


-> cr 


n 

n~ 

S *- 

T 

CT“ 

2a 4 



n — 1 

S* 

c, t cr 

(1 -c> 2 

R 

d 2 cr 

d J CT“ 


= 0 

6 

7i 

n 



24 

72 

— 3 

— — 



n 

Médiane 

m 

tt a- 



2 n 
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Un calcul d’intégrale permet de trouver la valeur de E(S *) : 


E(S*) = cr 




que l'on exprime souvent sous la forme E(S*) = c 4 cr, où c 4 tend vers I quand n augmente 
(table Al SJ. S* est donc asymptotiquement sans biais pour cr. 

On en déduit aisément la variance V(S :,: ) = E(S* 2 ) — (E(S*)) 2 = cr 2 — (c 4 o-) 2 = cr 2 (i — cj) 

Pour l’étendue R , les calculs ne sont pas aisés : les coefficients usuellement notés 
d 2 et d 2 qui permettent de calculer E(R ) = d 2 u et V(R) = (c/ 3 cf ) 2 figurent dans la table 
Al 8. 

On notera que quand n augmente, d 2 tend vers P infini, car la loi normale a pour support 
l’ensemble des nombres réels. 


12.2.4 Application aux cartes de contrôle 

Il s’agit d’une des plus importantes applications industrielles directes de la théorie de 
l’échantillonnage. 

Introduites par W.A. Shewhart dès 1931, les cartes de contrôle permettent de suivre au 
cours du temps la moyenne et la dispersion d’un procédé de fabrication afin de détecter des 
écarts significatifs (déréglages ou dérives) par rapport aux valeurs nominales ou consignes à 
respecter. En effet, tout procédé est soumis à des variations, que l’on modélise souvent par 
une loi normale : par exemple le diamètre de pièces mécaniques suit une loi N(m, cr). Soit 
m 0 et cr 0 les valeurs nominales. 

On prélève à intervalles réguliers des échantillons de n pièces. La carte de 
Shewhart (X ; S) est un double graphique où l’on reporte les valeurs successives de la 
moyenne et de l’écart-type corrigé de chaque échantillon. La lig_ne centrale correspond 
à l’espérance de la statistique si le procédé est bien réglé : E(X) — w 0 E(S *) = c 4 cr n . 
Les limites de contrôle sont conventionnellement à ±3 écart-types de la valeur centrale 
soit : 


m 0 ± 3~= et c 4 o- 0 ± 3^(1 - d)cr 0 
dn 

Pour « < 5 la limite inférieure de contrôle pour S est mise à zéro, pour éviter une 
valeur négative. La probabilité de sortir des limites de contrôle étant très faible lorsque 
le procédé est bien réglé, on interviendra dès que l’une des deux statistiques sort des 
limites. 

La figure suivante illustre une carte de contrôle pour un procédé où m () = 24 et cr 0 — 2 avec 
des échantillons de taille 5. Des interventions auraient du avoir lieu aux instants 7, 9 et 20, car 
la moyenne était sortie des limites. 
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LCS = 26.68 
CTR = 24.00 
LCI = 21.32 



LCS = 3.93 
CTR = 1.88 
LCI = 0.00 


Il existe bien d’autres cartes de contrôle, cf L. Jaupi, 2002. 

12.3 DISTRIBUTION DU CENTRE DE GRAVITÉ 
ET DE LA MATRICE DE VARIANCE D’UN 
ÉCHANTILLON GAUSSIEN p -DIMENSIONNEL 

Soit un échantillon de taille n de la loi ; 2) (c’est-à-dire un tableau de données à n 
lignes et p colonnes), il suffit alors d’appliquer les résultats du chapitre 4 pour obtenir que : 

{rig ~ ; 2) soit g - N p (^l ; ~2^ 

La matrice de variance V suit alors une loi de Wishart à (/? — l) degrés de liberté : 

nV ~ W p (n - i ; 2) 

V et g sont des statistiques indépendantes. 
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La distance de g à |jl au sens de Mahalanobis est : 

(g - |x)'2“'(g - 

et on a : n (g - |x)' 2''(g - |x) ~ Xf 

Le résultat suivant est cependant plus utile car il ne fait intervenir que la matrice V 
observée et non la matrice 2 théorique : 


soit : 


(" - D(g “ Md' V '(g - n) = Tl{n - 1) 

-- ~(g “ M-)' V _l (g ~ M-) = F(p\n - p) 

P 


il étend la formule unidimensionnelle du T de Student. 


12.4 LA MÉTHODE « DELTA » ET LES STATISTIQUES 
ASYMPTOTIQUEMENT NORMALES 


Soit T une statistique telle que si n —> * T —» LG 0 ; 


cr(9) 


et g une fonction dérivable. Alors 

3'(fl)<r(0)' 


g(T ) est également une statistique asymptotiquement normale et T —* LG g(0) ; 




En effet d’après la formule des accroissements finis : g{T) — g(&) = [T — 0)g'(0) + e 
ou e est ici une variable aléatoire qui tend vers 0 lorsque T tend vers 0, donc quand 
n —» ce. 

La distribution asymptotique de g(T) — g(0) est donc celle de g'(Q)(T~- 0) et on a 
V(9(T)) # (£/'(0)) 2 V(T) d’où le résultat annoncé. 

Ce résultat est particulièrement utile lorsque l’on veut obtenir une variance asymptotique 
indépendante de 0 : il suffit de résoudre l’équation différentielle g'(Q)<j{Q) — c. En voici trois 
applications : 


S 2.4.1 Stabilisation de la variance d’un pourcentage 

On a vu que F LG^/? ; d'où : 

VpËT- p)g\p) 


g(F) —* LGl g{p) ; 
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Si g'(p) — . — =, il vient g{p) = 2c Arc sin Vp + K. En prenant c = 1/2 et 

Vp(l - p) 

K = 0 on en déduit que : 

Arc sin VË —> LG ^ Arc sinVp ; — 

12.4.2 Stabilisation de Sa variance d’une loi de Poisson 

Soit X P?(k). On sait que X —» LG(X ; y/x) d’où : 


12.4.3 Valeurs propres d’une matrice de variance 

n 

Soit un u-échantillon d’une loi normale /^-dimensionnelle NJ pu 2) et V :|: =- V la 

n — 1 

matrice de variance corrigée de l’échantillon. 


Si X, et /, désignent les i eaK valeurs propres de 2 et de V* respectivement, T. W. Anderson 
a montré que Vu — 1 (/,- — X,-) converge vers une loi normale LG(0 ; X,V2). 

On en déduit que In I f a pour distribution approchée une LG^ln X, ; 
permet d’écrire : 


ce qui 


d’où : 


0.95 ~ P ln X 



< ln < ln kj + 1.96 





< X, < /,exp 



(c/ch 7, § 7.3.2) 


12.4.4 Généralisation au cas multidimensionnel 

cp(X) avec cp application de U 1 dans ffV 7 différentiable alors : 

/ A2A'\ 

*P(X) A^ip(ji) : —— ) 

où A est la matrice des dérivées partielles de 9 au point ja . 

Ce résultat est souvent utilisé pour calculer des intervalles de confiance asymptotiques 
pour des paramètres multidimensionnels, le nom de méthode delta provient de l’usage des 
dérivées. 


Si X —* AU ja ; — et si y 







13.1 GÉNÉRALITÉS 

L’estimation consiste à donner des valeurs approchées aux paramètres d’une population 
(m ; ct, etc.) à l’aide d’un échantillon de n observations issues de cette population. On 
supposera vérifiée l’hypothèse d’échantillonnage aléatoire simple. 

13.1.1 Exemples élémentaires 

Les lois des grands nombres justifient l’usage de x et de ,ç 2 comme estimations de m et ct 2 

respectivement : on sait que X —* m et S~ —> ct - . De même, la fréquence empirique / d un 
événement est une estimation de sa probabilité p. 

Les variables aléatoires X, S 2 , F sont appelées alors estimateurs de m, ct 2 , p respectivement. 

Cependant le même paramètre peut être estimé à l’aide d’estimateurs différents : pour une 
distribution symétrique la médiane de l’échantillon est également une estimation de m. 

Afin de choisir entre plusieurs estimateurs possibles d’un même paramètre il faut définir 
les qualités exigées d’un estimateur. 

13.1.2 Qualités d’un estimateur 

Soit 0 le paramètre à estimer et T un estimateur, c’est-à-dire une fonction des X, à valeurs 
dans un domaine acceptable pour 0 . 

La première qualité d’un estimateur est d’être convergent. Il est souhaitable que si 
n ~* zc T —> 0 . C’est le cas des estimateurs présentés au paragraphe précédent. Deux 
estimateurs convergents ne convergent cependant pas nécessairement à la même vitesse, 
ceci est lié, pour une taille d’échantillon donnée, à la notion de précision d’un estimateur. 

Un estimateur est une variable aléatoire. Supposons connue sa foi de probabilité pour une 
valeur donnée de 0. La figure 13.1 illustre alors les deux composantes de l’erreur d’estimation. 

L’erreur d’estimation T — 0 qui est une variable aléatoire se décompose de façon 
élémentaire en T — E(T) + E(T) — 0 ou E(T) est l’espérance de l’estimateur. 

T — E{T) représente les fluctuations aléatoires de T autour de sa valeur moyenne tandis 
que E(T) — 0 est assimilable à une erreur systématique due au fait que T varie autour de sa 
valeur centrale E(T) et non autour de 0. 
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7.3 m L'estimation 



Biais 


Figure 13.1 


La quantité E(T) — 0 s’appelle le Jj/ais. Il est donc souhaitable d’utiliser des estimateurs 
sans biais, tels que E(T) = 0. Ainsi X est sans biais pour in, mais S 2 est biaisé pour cr 2 . 

Il est donc souvent préférable d’utiliser S * 2 =- S 1 pour estimer cr 2 . 

n — 1 

On sait cependant que S* n’est pas un estimateur sans biais de tr. 

On mesure généralement la précision d’un estimateur T par l’erreur quadratique 
moyenne : 

E((T - 0) 2 ) 

On peut écrire : 

E[(T - 0) 2 | = E\(T - E(T) + E(T) - 0) 2 ] = E[(T - E{T)) 2 ] 

+ 2 E[(T ~ E{T))(E(T) - 0)] + £[(£(7) - 0) 2 ] 

Comme E{T) — 0 est une constante et que E[T — E{T)\ = 0 il vient : 

E[(T - B) 2 J = V(T) + L E(T) - 0 ] 2 


De deux estimateurs sans biais, le plus précis est donc celui de variance minimale. 

I " 

Montrons ainsi que si /// est connu l’estimateur T = - ^ OC — /n ) 2 est meilleur que S * 2 : 

" /= i 

En effet : V(T) = ~ V[ j\(X i ~ mf ) = - V[(X - m) 2 \ 

n- V, = ! / n 

V(T) = - [E(X - mf - [E(X - /») 2 ] 2 ] = - [fx 4 - a 4 ] 
n n 

et : V(5«) = (—)>(S-) = (-"-r) [(« - Dn - (n - 3)<r J | 

\n — 1/ \n - 1/ n- 

n 1 
V(S* 2 ) = - 
n 

donc V(T) < V(S :i:2 ). 
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13.S.3 Recherche du meilleur estimateur d’un paramètre 0 

On ne peut résoudre d'une façon générale le problème de la recherche du meilleur esti¬ 
mateur d’un paramètre sans faire d’hypothèses sur le phénomène échantillonné. En effet la 
variance d’un estimateur ne peut en général se calculer que si l’on connaît la loi de T qui 
dépend de celle des X,. 

Le modèle utilisé en théorie classique de l’estimation est alors le suivant : on observe un 
échantillon d’une variable X dont on connaît la loi de probabilité à l’exception de la valeur 
numérique d’un ou de plusieurs paramètres (par exemple : X suit une loi de Poisson 9^(0) de 
paramètre 0 inconnu). En d’autres termes la variable X est définie par une famille paramé¬ 
trée de lois j'(x ; 0) où /a une expression analytique connue. 

Cependant la théorie de l’estimation ne permet pas de résoudre le problème de la recher¬ 
che d’estimateurs d’erreur quadratique minimale. On se contentera de rechercher pour une 
famille de loi donnée/(x ; 0) l’estimateur sans biais de 0 de variance minimale. Il reste tou¬ 
tefois possible dans certains cas particuliers de trouver des estimateurs biaisés plus précis 
que le meilleur estimateur sans biais. 

La recherche d’estimateurs sans biais de variance minimale est intimement liée à l’existence 
de statistiques exhaustives. 


13.2 L’EXHAUSTIVITÉ 

Dans un problème statistique où figure un paramètre 0 inconnu, un échantillon apporte 
une certaine information sur ce paramètre (information qui serait différente pour un autre 
paramètre avec le même échantillon). Lorsque l’on résume cet échantillon par une 
statistique, il s’agit de ne pas perdre cette information ; une statistique qui conserve l’infor¬ 
mation sera qualifiée d’exhaustive. 

Il convient de donner un sens précis à la notion d’information : une première approche 
consiste à remarquer qu’une variable aléatoire T ne peut nous renseigner sur la valeur d’un 
paramètre que dans la mesure où sa loi de probabilité dépend de ce paramètre ; si la variable T 
est une statistique relative à l’échantillon (X,, X 2 , .. X„) et que la loi conditionnelle de 

(X,, X 2 ,.. -, X„) à T fixé ne dépend plus du paramètre 0, on peut dire alors, qu’une fois T connu, 
nous n’obtenons plus d’autre information de l’échantillon concernant 0 et donc que T porte 
toute l’information disponible sur 0. Une deuxième approche consiste à définir mathématique¬ 
ment une quantité d’information et à chercher dans quelles circonstances cette quantité se 
conserve lorsque les données sont résumées par une statistique. 

13.2. S Définition d’une statistique exhaustive 

Soit un u-échantillon d’une variable aléatoire X. 

On notera L{x u .v 2 , . . .v„ ; 0) soit la densité de (X,, Âf>, . . ., X n ) si X est absolument 

continue, soit la probabilité conjointe P{] Vj = .v, fl ... fl X„ — .v„) si X est discrète. 

L(x ; 0 ) considéré comme fonction de 0 seul est appelé « vraisemblance » de 0 (voir plus loin). 

Soit T une statistique fonction de X b X 2 , . . X„ de loi g(i ; 0) (densité dans le cas continu, 
P(T = t ) dans le cas discret). 
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Définition 


T sera dite exhaustive si l'on a L(x, 0) = g(j, 0)/ï (x) (principe de factorisation ) en d'autres 
tenues si la densité conditionnelle de l'échantillon est indépendante du paramètre. 


Ceci veut dire qu'une fois T connu, aucune valeur de l'échantillon ni aucune autre statis¬ 
tique ne nous apportera de renseignements supplémentaires sur 0 . 

œa Exemples : 

® Loi normale, m connu cr inconnu : 


L(x, cr) 



J 


n 

Posons T = ^ (Xi ~ m ) 2 - On sait que T/cr 2 suit une loi de La densité de T est 

i— \ 


alors : 


gU> cr ) 




1 

CT” 



4H/2- 1 


cr 


» 



d’où : 


L(x, cr) = g(t , cr) 


r<«/2) 


TT 


»/2 


ÿj (a*,- - /n) 2 


g(t , o-)/j(x) 


r = ~ m ) 2 est donc exhaustif pour a 2 . 


® Loi de Poisson, X. inconnu : 


n \ .v ; —' 1 

I(.ï, ;.v 2 ; \) = ||cxp(-M — = exp (-nk)-~— 

1 >,! 


S = X, 4- X 2 + • • * + est exhaustive : S suit une loi SP(n\), d’où 

(n\y 

g(s : X.) = exp(-nX)——et : 

s\ 


L 

g 


i'! 


/iTLq! 


Le principe de factorisation nous donne donc un moyen de reconnaître si une statistique est 
exhaustive, mais ne permet pas de la construire ou même de savoir s’il en existe une. 
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13.2.2 Lois permettant une statistique exhaustive 

Le théorème suivant répond aux deux préoccupations précédentes : 

Théorème de Darmois 

Soit une variable aléatoire X dont le domaine de définition ne dépend pas de 0. Une 
condition nécessaire et suffisante pour que l'échantillon (X h À\, .... X n ) admette une 
statistique exhaustive est que In forme de la densité soit : 

/(.V, 0) = exp[c 7 (A')ot( 0 ) + b(x) -f (3(0)| (famille exponentielle) 

tt 

\ Si la densité est de cette forme et si de plus l'application x , —> ^ü(.y,) est bij active et 

i-i 

\ 71 

i continûment différentiable pour tout /, alors T = 2 a(X,) est une statistique exhaustive 
! '= i 

I particulière . 

fa 


m Démonstration : 

® Condition nécessaire : T = ip(X,, X 2 , .. ., X„) est telle que : 

i(x. 0) = gO, 0) //(x) = li/(-v„0) 

i= I 


On a : 


d 2 ln/(.V|, 0) _ d 2 ln g(t , 0) __ 0 2 In g(f, 6) dtp 
r)0 rJXj 00 rïXj 00 0/ dXj 


Posons : 


0 ln f(f 0) 
k( 0) = -- 

00 


V£, 0 e IR il existe un point x de R" avec ,y ; = £Xj = tj. En ce point on a : 

rttfc B)M _ 0ip(x)/0.v ; 

3k(r\, B)/ rJ-rj 0ip (x)/dXj 


ce qui est indépendant de 0 ; ceci n'est possible que si : 

dk(x, 0) 


dx 


u(x)v(Q) 


d'où en intégrant par rapport à x : k(x, 0) = ff(.v)v(0) + n’(0), et en intégrant par rapport à 0 : 
ln /(.y, 0 ) = o(A-)a( 0 ) + P(0) + b(x). 


® Condition suffisante : L(x, 0) ~ exp 
Posons t = ^a(Xj) et effectuons le changement de variable : 


a(0)2«(-v,) + y.bixp + n(3(0) 

;=l i -! 
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n 

légitime si l’application est bijective a , —* ^a(Xj) : 

;= i 


L(/, a- 2 , ...v,,) = exp(/a(0) + >/|3(0))exp 



dt 

dx t 


car le jacobien de la transformation se réduit à dt/d. v,. Pour obtenir la densité g{t, 0) de /, i] 
faut intégrer V par rapport à .v 2 , .v 3 , . . a„ soit dans 


g(t, 0 ) = exp(/a( 0 ) + /zj3(0)) • 



jd.i2d.v3 


.. d.v„ 


il y a donc bien factorisation de L(x, 0 ). m 

Ce théorème est un outil très puissant dans la recherche des statistiques exhaustives et l’on 
remarque que la plupart des lois usuelles, lois de Poisson, de Gauss, lois y sont de la forme 
exponentielle. 

« Exemple : X suit une loi y de paramètre inconnu : 


/(-v, 0 ) 


1 

nëj 


exp(—.v).v° 1 


ln/( jc, 0 ) = -v + (0 - 1 ) In.v - lnT( 0 ) 


La statistique exhaustive est ^ ln X, = ln 

;= 1 

On peut remarquer que toute fonction injective d’une statistique exhaustive est encore 
exhaustive, ce qui indique que dans l’exemple précédent la moyenne géométrique des 
observations est exhaustive pour 0 . 

Une statistique exhaustive T, qui est fonction de toute statistique exhaustive, est dite 
exhaustive minimale. 

Remarquons cependant que si le domaine de définition de X dépend de 0, le théorème de 
Darmois ne s’applique pas, ce qui n’empêche pas de trouver dans certains cas des statistiques 
exhaustives. 

Ainsi si X suit une loi uniforme sur [0 ; 0], T = sup X ; est exhaustive pour 0. 

/l Y m "' 1 

En effet : L(x ; 0) = y- j et g(t ; 0) = 

t Y, . L 1 

— J il s ensuit que - =-r 

0/ g nt"~ 



car P (T < t) = 


est indépendant de 0 . 
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es Autres exemples de statistiques exhaustives : le lecteur pourra vérifier les résultats 
suivants à titre d’exercice : 


71 

® loi de Bernoulli de paramètre p inconnu : T = ^X; est exhaustif pour p ; 
® loi de Laplace-Gauss : N(m ; cr) : 1 


- si cr est connu, T = est exhaustif pour ni ; 

;'= i 

n 

- si m est connu, T = T) (X,- - m) 2 est exhaustif pour cr 2 ; 


;= i 


si ni et ct sont tous deux inconnus, le couple ( ^X,-, ^(X,- - X) 2 J ou (X, S 2 ) est 
exhaustif pour le couple (ni, cr). 


n ri 


• loi exponentielle de densité -exp 


n 

: T = ^X,- est exhaustif pour 0. n 

/= î 


13.2.3 L’information de Fisher 

Définition 

On appelle quantité cl'information de Fisher 1„( 0) apportée par un n-êclumtillon sur le 
paramètre 0 la quantité suivante positive ou nulle (si elle existe) : 


4 ,( 0 ) = E 


0 In L V 

~~àë" 


Note : L(X, 0) peut être considérée comme une variable aléatoire, car fonction de variable 
aléatoire : 


I(X„X,,...,X,,;fl) = n/OV.S) 

/= I 


Théorème 

Si le domaine de définition de X ne dépend pas de 0 alors : 


4 ,( 0 ) = -E 


d 2 ln L 

ae 2 


si cette quantité existe 


Démonstration : L étant une densité 


ité L(x, 

Jp.” 


0)dx — 1. 


En dérivant les deux membres par rapport à 0 et en remarquant que 

dL(x. 0) r 0 In L(x, 0) 

: L(x, 0)- 


00 


00 
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ii vient : 


dln L(x, fi) 
90 


L(x, 0 )dx = 0 


a ln L(X. fi) /a ln L 

ce qui prouve que lu variable aléatoire-—-est centrée et que /„(0) — V[ —; 


a fi 


a B 


Dérivons une deuxième fois : 


d 2 In L(x, 6 ) _ , f a ln L(x, 0 ) 0 L(x, 6 ) j 

-L(x, fi)dx +-dx = 0 

r. afi J R . afi ae 


aL(x, 0) . 

en utilisant a nouveau la remarque sur — 77 —, il vient : 


a 2 ln L(x, 0) 

ao 2 


L dx + 


aa 

f (d ln L(x, 0)V 
ae 


L(x, 0 )dx = 0 


ce qui démontre la proposition. . ma 

Remarque : L’utilisation de l’hypothèse du domaine indépendant de 0 intervient lors de 
la dérivation sous le si une 



Un exemple de variable aléatoire à domaine non indépendant de B est fourni par X de densité 
exp(“(.v — fi)) si .y > fi ; 0 sinon. 

Propriété de /„(0) 

| ® Additivité. Si le domaine de définition ne dépend pas de 0 on a : 

/„(0) - n/,(6) 

I En effet les opérateurs espérance et dérivée seconde sont linéaires. 

I Ceci veut dire que chaque observation a la même importance, ce qui n’est pas 

le cas pour la loi uniforme sur [0, 0] où la plus grande observation est la plus 
I intéressante. 

1 ® Précision. Soit X une variable aléatoire de Laplace-Gauss N(0, cr) où cr est connu. On 

î a /|(0) = 1 /cr 2 ; l’information apportée par une observation sur la moyenne est d’autant 

| plus grande que la dispersion est petite. 

I ® Dégradation de l’information. Montrons que l'information portée par une statistique est 
1 inférieure ou égale à celle apportée par l’échantillon. Soit T de densité g(l, fi) la statis¬ 
tique que l’on substitue a l’échantillon, on a : 


L(x, 0 ) = g(l, 0 )//(x, 0 |/) 
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où lt(x , 0 1 1) est la densité conditionnelle de l’échantillon. On a donc, en prenant l’espé¬ 
rance des dérivées secondes : 


/„(0) = M0) - E 


/cl 2 ln h \ 

\ r)B 2 / 


le dernier terme est la quantité d’information conditionnelle 4/r(G) (ou information 
supplémentaire) ; elle est positive ou nulle, donc : 

/r(6) ^ 4(0) 

on voit donc que si T est exhaustive / 7 (0) = 4(0) et que la réciproque est vraie si le 
domaine de X est indépendant de 0. 


Remarque : On a supposé le domaine indépendant de 0 car sinon on aurait dû écrire : 


4(0) = 4(0) + E 


e) In h V 
00 


+ 2 E 


d ln g 0 ln h 
00 00 


et on n’aurait pas pu conclure à une diminution de l’information à cause du signe inconnu 
du dernier terme. 

Ce dernier tenue peut laisser supposer, s’il est négatif et grand en valeur absolue, que 
/ r (0) > 4(G) ; jusqu’à présent aucun exemple d’augmentation de l’information n’a été 
découvert mais le problème reste entier. 


B 3.2.4 Généralisation à plusieurs dimensions 6 paramètre 
vectoriel e IR A 

On consultera Fourgeaud, p. 216, pour un traitement complet. En résumé, on a, si le 
domaine ne dépend pas de 0 : 

La matrice de l’information a pour terme général : 

^ [0 ln /’(X, 0) 0 ln f(X. 0)* 

' J l 00, 00, 

c’est une matrice symétrique définie positive. 

Soit T y , T 2 ,. . T s un système de s statistiques fonctionnellement indépendantes ; la notion 
de dégradation de l’information se généralise comme suit : 

~~ t ] ? T-, > ■■■■> 7;(G) est définie positive 

On appelle système exhaustif un système de x statistiques fonctionnellement indépen¬ 
dantes, tel que : 

L( a-„; 0) = g(ty, L,..., 0)/j(.v h a„) 

et l’on a j4(0) — y,,v;(0) = 0 si et seulement si le système (7), T 2 . ..4) est exhaustif. 
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Théorème de Darmois 

Une condition nécessaire et suffisante pour qu'un n-échantillon admette un système 
résumé exhaustif est que : 

ln/f.v. 0) = i«,(A)ct,.(0) + b(x) + (3(0) 

1= I 

// 

en particulier : 7) = ^ afXj) i = 1, 2 ,..s est un système exhaustif 


13.3 L’ESTIMATION SANS BIAIS DE VARIANCE MINIMALE 


13.3.1 Les résultats théoriques 


On dispose pour résoudre ce problème d’une suite de quatre théorèmes qui montrent en 
définitive que l’estimateur de variance minimale est lié à l’existence d’une statistique 
exhaustive. 


Théorème I Unicité 


L S' il existe un estimateur de 0 sans biais , de variance minimale , il est unique presque 
sûrement. 


Démonstration : Raisonnons par l’absurde et supposons qu’il existe deux estimateurs 
sans biais T, et T 1 de 0 de variance minimale V. 


Soit : 


T ,= 


T, + T 2 
0 


T 3 est sans biais car : 


EiTf) = 


E(T { ) + E(T 2 ) 
o 


0 + 0 
? 


et : V(T 3 ) = [ VIT ,) + V(T 2 ) + 2po- 7 a 7 J 

où p est le coefficient de corrélation linéaire entre T, et T 2 . Puisque V{T\) = V{T 2 ) = Vil vient 
V 

V{Tf) = — (1 + p). Si p < 1 on a V(T 3 ) < V ce qui est impossible, donc p = l. C’est-à-dire 

T, — E(T { ) = \(T 2 - E(T 2 )) avec \ > 0. Comme V{T { ) = V(T 2 ) il vient X. = 1 et puisque 
E(T\) = E(T 2 ) = 0* on a t\ = T 2 (ps). raa 

Théorème 2 : Rao-Blackwell 

I Soit T un estimateur quelconque sans biais de 0 et U une statistique exhaustive pour 0. 
Alors T * — E(T \ U) est un estimateur sans biais de 0 au moins aussi bon que T. 
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m Démonstration : 

® T* est un estimateur de fi. Cette proposition est non triviale car il Faut montrer que T * 
dépend seulement des X; et non de 0. 

Puisque U est exhaustive, la densité conditionnelle de l’échantillon sachant U ne dépend 

pas de 0 et E(T\ U) = Æ(x,0| //)dx ne dépend donc pas de 0 mais des x seuls. 

Jsî" 

® T :,: est sans biais. D’après le théorème de l’espérance totale : 

E(T*) = E[E(T | U)\ = E(T) = fi 

® T :|: est au moins aussi bon que T. D’après le théorème de la variance totale : 

V(T) = V(E(T\U)) + E(V(T | U)) 

V(T) = V(T*) + E(V(T | U)) 

Comme E(V(T | U)) est positif ou nul on a V(T) > V(T' i: ). 

® De plus si E(V(T \ U)) = 0 c’est que presque sûrement T = f(U), il y a relation Fonc¬ 
tionnelle entre T et U. 

Ce théorème fournit une méthode pour améliorer un estimateur sans biais donné. m 


Théorème 3 


L S'il existe une statistique exhaustive U , alors l'estimateur T sans biais de 0 de variance 
minimale (unique d'après le théorème J) ne dépend que de U. 


C’est un corollaire du théorème 2. On ne peut améliorer T par la méthode de 
Rao-Blackwell puisque T est de variance minimale. Donc P(P t: ) = V(T) et T — f{U). 

Cependant, comme il peut exister plusieurs estimateurs sans biais de 0 Fonction de U. on 
n’est pas sûr que l’estimateur T * obtenu par la méthode de Rao-Blackwell soit le meilleur, 
il faut alors introduire la notion de statistique complète. 


Définition 


L On dit qu'une statistique U est complète pour une famille de lois de probabilités f{x, 0) 
si E[h(U)\ = OV0=>/2 = Ops. 


On montre en particulier que la statistique exhaustive des familles exponentielles est 
complète. „ 

Ainsi par exemple pour une loi de Poisson où X est inconnu S = est complète. 

i= i 

En effet : £[/>(£) I — S h(s) exp (~n\) -—— 

.v = 0 s\ 

= exp(“7 l\)^ll(s)^y- 

,=n •*! 
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La série —X s ne peut être nulle VX que si elle est nulle terme à terme donc si 

, = o J! 

h(s) = 0 Vx e Ll. 


Théorème A : Lehmann-Scheffé 


Si T* est un estimateur sans biais de 0 dépendant d'une statistique exhaustive complète 
U alors T* est l'unique estimateur sans biais de variance minimale de 0. En particulier 
si l’on dispose déjà de T estimateur sans biais de 0. T* = E(T \ U). 


En effet l’estimateur de variance minimale est unique et dépend de U , d’autre part U étant 
complète il n’existe qu’un seul estimateur sans biais dépendant de U (soit T, = f(U) et 
T 2 = g(U) E(T { ) - E(T 2 ) = 0 V0=>/— gps) l’estimateur obtenu est donc nécessaire¬ 
ment le meilleur. 

En conclusion si l'on dispose d'un estimateur sans biais fonction d'une statistique 
exhaustive complète, c'est le meilleur estimateur possible. 

13.3.2 Exemple 


Le nombre de demandes hebdomadaires d’un certain produit est une variable X qui suit 
une loi de Poisson SP{\) où X est inconnu. On cherche à évaluer la probabilité que X soit nul. 
On note X |; X 2 , . . X n les observations de X pendant n semaines. 

Le paramètre à estimer est exp ( —X) = P(X = 0). 

Une première méthode consiste à compter le nombre de fois K où l’on a observé X = 0 
et à estimer P(X = 0) par la fréquence K/n. 

On a bien sûr : 


E 



exp(-X) 



exp( —X)(l ~ exp(-X)) 
n 


exp( — 2X) 


exp(X) — 1 


K/n est sans biais, convergent, mais ne tient pas compte du fait que X suit une loi de Poisson. 

Il ne peut donc être optimal, ce qui se vérifie en remarquant que K/n n’est pas une fonction 
11 

de S = 2 Xi qui est une statistique exhaustive complète pour X. 

i = 1 

X est l’estimateur de variance minimale de X, mais exp(-X) est biaisé pour exp ( — X). 
L’estimateur sans biais de variance minimale T de exp (-X) peut être obtenu en améliorant 
K/n par l’application du théorème de Rao-Blackvvell : 

Introduisons les variables de Bernoulli : F,. Y 2 , . . ., F„ : 

ÏY f = 1 siX,. = 0 d’où P(Y, - 1) = exp(-X) 

[Yj = 0 si X,- > 1 d’où P(Yt = 0) = 1 - exp(-X) 


K = E y, 
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On a : 


T = E 


K , 
-IS 
n 


= -E[K/S] = E\YjS] 


Or : E[YjS = s] = P(Y } = 1 /S = s) = P(X, = 0/5 = s) 

D'après la formule de Bayes : 

P(S = s/X, = Q)P[X l = 0) 


P(X, = 0/5 = s) = 


P(5 = s) 


S suit une loi de Poisson SP(nk). La loi de 5, sachant que X] = 0, est une loi de Poisson 
&((n - 1 )X) car alors 5/(X, = 0) = X 2 + X 3 + ■ • • + X„. 


r .((« - i)xy , 

[exp( —(n - 1)X)1---exp(-X) 


D’où : P(X } = 0/5 = s) = 


s\ 


[expf—nX)] 


(nkf 


n - IV 


Donc : 


I \nX 

7 =|/-- 
n, 


Un calcul laissé au soin du lecteur montre que Vf7) = exp(-2X) exp 

(K\ V 

donc bien V(7) < V I — j car : 


1 ; on a 





~x 


X 2 


V(7) = 

Ü 

X 

U 

II 

-2X) 

n 

+ 

“ + ■ 
2 ir 

. . -j- - + 

k\n k 

(K\ 



rx 


X 2 

X* 


= expf- 

-2X) 

— 

+ 

- + ' * 

■ + — + ■ 

\n ) 




2 n 

k\n 


13.3.3 Inégalité de Fréchet-Darmois-Crame^Rao (FDCR) 

Le résultat suivant nous indique que la variance d’un estimateur ne peut être inférieure à une 
certaine borne, qui dépend de la quantité d’information de Fisher apportée par l’échantillon sur 
le paramètre 0. 

Si le domaine de définition de X ne dépend pas de 0, on a pour tout estimateur 7 sans 
biais de 0 : 
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et si T est un estimateur sans biais de 5(0) : 


V(T) > 


[V(B)I 2 

A,(0) 


b Démonstration : Considérons : 


( d ln L\ ( 5 In L 

-e r— 


5 ln L 

puisque —est centrée. Donc : 


, 5 ln L\ f 5 ln L , f dL , 

cov I.- = r- Ldx = r — dx 

50 J J 50 J 50 


■^jtLdx = ^E(T) = li'(B) 
dOJ d9 


D’autre part l’inégalité de Schwarz donne : 

5 lnL\ 


cov T, 


50 J 


< V(T) V 


5 InL 
50 


c’est-à-dire : 


[h’(Q)Ÿ< V(T)I„m c.q.F.d. 


La question se pose de savoir si l’on peut atteindre la borne minimale de la variance ; un 
tel estimateur sera qualifié d’efficace. 

L’efficacité n’est donc définie que dans les conditions de régularité suivantes qui sont celles 
de FDCR : 

ci) Le domaine de définition E () est indépendant de 0. 
dL 

b) — existe et est continue par rapport à 0. 

c) /„(0) est finie. 
ôL dL 

d) —, T — sont intégrables par rapport à 0. 

50 50 ' 


Dire que T est efficace c’est dire que sous ces conditions : 

[h'mr- 


V(T) = 




V0G0 


T est donc un estimateur sans biais de variance minimale de 5(0). 
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On a alors le résultat suivant : 

Théorème sur l’efficacité 

® La borne de Cramer-Rao ne peut être atteinte que si la loi de X est de forme 
exponentielle : 

ln/( a',0) ~ a{x)ct( 0) + b(x) + (3(0) 
car T est nécessairement exhaustif pour 0. 

® Si la loi de X est bien de lafonne précédente , il n 'existe (à une transfonnation linéaire 
près) qu'une seule fonction //(B) du paramètre qui puisse être estimée efficacement : 

—>~s 

L'estimateur de /?(0) est alors : 

1 

r = -5>(x,) 


Il 


La variance minimale est 


WT) = - 


1 d / p'(6)\ //'(8) 


;ia'(0) d0 \ot'(0)/ /joc'(0) 


sa Démonstration : 

® T est exhaustif si T est efficace de /i(0). 

Comme £ ( , ne dépend pas de 0 on a toujours : 

4(0) S 4(0) 

Une conséquence de FDCR est que : 


V{T) > 


i jm? 

//•ce) 


[/i'(0)]- 

Si T est efficace on a : V(T) =- 

4(0) 

donc : 4(6) < / r (0) 

donc /„(0) = /■;■(0). T est donc exhaustive. 

D’après le théorème de Dannois on a alors : 

ln f(x, 0) = a(xM 6) + 0(0) + &U) 
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Si T est efficace pour 0(0) et si - ^aiX,) est exhaustif alors : 


/.<8,Æ el r = - y,a(X l ) 

a (0) n i= | 

L’inégalité de FDCR étant une inégalité de Schwarz, Légalité n’est réalisée que s’il y a 
colinéarité pour presque tout fl, c’est-à-dire : 


rl ln L 


rl0 


= \( 0)[7 - 0 ( 0)1 


Or. si L — fjexp(fl(.v,)a(0) + (3(0) + b(. r,)) on doit avoir : 
i = i 

n . . n . 

InL = a (0)]>]tf(-C) + n[3(0) + ^jb(x ,) 


/ = ! 


et : 


d ln L 
00 


cx'(0) j^afv,) + /j( 3'(0) = ncx'(0) 


«'(fl)" 


0 ln L 

En identifiant les deux expressions de —-— on obtient : 

00 

T = - et /i(0) =-—- 

n i= i ex (0) 

0(0) et 7’sont donc uniques par construction à une transformation affine près. 

La réciproque est alors immédiate : 

Si la loi est de la famille exponentielle, la statistique exhaustive T = - est efficace 

p'(B) 

pour--—. 

1 « ( 0 ) 

9 Calcul de la variance V(T) : 

, , [0(0)1" 

De /„(0) - n 2 a'm 2 V(T) et V(T) = . .. on déduit : 


«0) 


V(T) = - 
n 


0 ( 0 ) 


«'( 0 ) 


1 0 '( 0 ) 

On peut montrer qu tV(T) =--— eo 

n a (0) 

Le théorème qui vient d’être démontré montre qu’on ne peut estimer efficacement qu’une 
seule fonction 0(0) qui peut ne pas être intéressante. 
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Exemple I. Estimation du paramètre 0 d’une loi 7 0 : 

In/'(.v, 0) = (B — I)In x — x — ln TfO) 

] 71 / Il \ l/ll 

SlnX, = ln[ 

11 


Si fon prend T = - ]£ln AT,- = ln X- t comme estimateur, on voit que l’on estime effi¬ 


cacement /;(0) = — ln (r(0)). ma 

d0 

m Exemple 2. Dans une loi N(m, a), si in est connu cr 2 est le seul paramètre que l’on 

rir 


IA n ^fiï \l) r- 

peut estimer efficacement et ceci par T = - \(X. — ni)-. L’estimateur \ -;-- VT 

»/= i > 2 r / W_L \ 


est sans biais pour o-, de variance minimale car T est exhaustive, mais n’est pas efficace au 

1 n - 


sens de la borne de FDCR. Si m est inconnu l’estimateur \ - 


ri- 


S est sans biais et 


de variance minimale pour cr. En pratique on utilisera S* — \f - 

V — 1 

biaisé (voir S 12.2.3). 


S qui est très légèrement 


Remarque : Si X ne suit pas une loi N{nt, cr) on ne peut donner d’expression universelle 
d’un estimateur sans biais de o\ 

La recherche de statistiques exhaustives peut ne pas aboutir, on possède cependant une 
méthode d’obtention de bons estimateurs. 


13.4 LA MÉTHODE DU MAXIMUM 
DE VRAISEMBLANCE (MV) 

Cette méthode consiste, étant donné un échantillon de valeurs x h .v 2 , . . ., .v„ à prendre 
comme estimation de Ô la valeur de 0 qui rend maximale la vraisemblance : 

L(.v,, a„ ; 0). 

T- ô 

En pratique on prend comme estimation de 0 une solution de l’équation — ln L(X ; 0) = 0, 

c)G 

dite “équation de la vraisemblance”. 

Intuitivement, puisque L représente une densité de probabilité, cela revient à supposer que 
l’événement qui s’est produit était le plus « probable ». 
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Les justifications mathématiques sont les suivantes : 

Propriété I 

1 S’il existe une statistique exhaustive U, alors l’estimateur du MV en dépend. 


0 In L d In g 

En effet L(x. 0) = g(it , 0)//(x) et résoudre-= 0 revient a résoudre —— = 0 donc 

« 00 00 
G =/(M). 

Si 0 est sans biais, ce qui n’est pas toujours réalisé, 0 sera la meilleure estimation possible 
de 0 si les conditions des théorèmes précédents sont réalisées. 

Propriété 2. Invariance fonctionnelle 

1 Si 0 est l’estimateur du MV de 0, /(0) est l’estimateur du MV de f(0). 


La démonstration est élémentaire si f est bijective, plus délicate dans le cas général. 

S’il n’existe pas de statistique exhaustive U on a les propriétés asymptotiques suivantes. 


Propriété 3 (admise) 


/ 


1 II existe une suite de valeurs 0„ racines de l’équation de la vraisemblance qui converge 
I presque sûrement vers 0 si —> ce. De plus 3/Vtel que n > N entraîne que 0„ réalise effec- 
I tivement un maximum pour L. 


Propriété 4 (admise) 


Q^i_0 

1 


V(0, I) 




1 

On peut donc affirmer, avec certaines réserves, qu’asymptoüquement V(0„) —>-, donc 

- I, ,( 0 ) 

que 0„ est asymptotiquement efficace. 


Remarques : L’équation de la vraisemblance n’a pas nécessairement une racine unique. 
De plus cette méthode n’est valable utilement que pour de grands échantillons, à cause de 
ses propriétés asymptotiques, s'il n’existe pas de statistique exhaustive U. 


™ Exemple : Estimation du paramètre de la loi de Weibull standard : 

F(x) = exp(— .v") 
f(x ; 0) = 0.v°” ’expC—.v 0 ) 

Le domaine de définition ne dépend pas de 0, mais la loi n’est pas de la forme de Darmois, 
à cause du terme en .v°. Appliquons la méthode du maximum de vraisemblance : 

L(x ; 0) = 0-f[ .v?" ’exp(- J) .vf ) 

i=i /=! 
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ln L(x ; 0) = « ln 0 + (0 - O^ln.ic, - 2- v ? 

i=i /=] 

— = - + j>.ï,- i.v?lnA-, 

89 6 (f, ' ", ' 


0 est donc solution de l'équation : 


Ë(.v? “ 1 ) Jn -L 


Cette équation non linéaire ne peut se résoudre que numériquement par approximations suc¬ 
cessives et on ne peut donc pas obtenir de forme explicite pour l’estimateur de 0. ms 


Extension à plusieurs paramètres B ; ,..0 p ; 

La méthode consiste alors à résoudre le système d’équations simultanées : 


cl ln L 



j= U 2. p 


Les propriétés de convergence et d’invariance Fonctionnelle s’étendent sans difficulté et on a 
également la propriété de normalité asymptotique suivante (0 h 0 2 ,.. .,6,,) a, quand n tend vers 
l’infini, une distribution qui tend vers une loi gaussienne à p dimensions de vecteur espérance 
0i, 0 2 ,..0 /; et dont la matrice de variance est l’inverse de la matrice d’information de Fisher. 


Plus précisément si le domaine de définition ne dépend pas des paramètres à estimer : 

d 2 ln L ~ 


S 1 a pour terme général —E 


S&idQj J 


13.5 L’ESTIMATION PAR INTERVALLES 

(LES FOURCHETTES D’UNE ESTIMATION) 

Il est souvent plus réaliste et plus intéressant de fournir un renseignement du type ci < 0 < b 
plutôt que d’écrire sèchement 0 = c. 

Fournir un tel intervalle [a, b] s’appelle donner une estimation par intervalle de 0 ou 
estimation ensembliste. 

13.5.1 Principe 

La méthode des intervalles de confiance est la suivante : 

Soit T un estimateur de 0, (on prendra évidemment le meilleur estimateur possible), dont 
on connaît la loi de probabilité pour chaque valeur de 0. 

Etant donné une valeur 0 O de 0, on détermine un intervalle de probabilité de niveau 1 - a 
pour T, c’est-à-dire deux bornes t s et t 2 telles que : 
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Ces bornes dépendent évidemment de Q 0 . 

On choisit dans la plupart des cas un intervalle de probabilité à risques symétriques a/2 et 
a/2. 

On adopte alors la règle de décision suivante : soit t la valeur observée de T : 

- si t e [/j, t 2 ] on conserve 0 O comme valeur possible de fi ; 

- si t g f/|. / 2 ] on élimine fi 0 . 

On répète cette opération pour toutes les valeurs de fl. 

On peut traduire graphiquement celte méthode dans un plan (0 ; T) où Ton trace /,(0) r,(0) 
(fig. 13.2). 



On lit donc selon une verticale les intervalles de probabilité et, selon l’horizontale 
issue de /, l’intervalle de confiance fa, b] de niveau 1 — a (coefficient de confiance). 


\a = t 2 '(/) 

[b = tf'(0 

[a, b] est un intervalle aléatoire car il dépend de t. 

Si l’on augmente 1 — a. on augmente la longueur de l’intervalle de probabilité, donc les 
courbes s’écartent. 

Si n augmente, comme T est supposé convergent, V(7’) diminue, donc [/,, r : ] diminue et 
les courbes se rapprochent de la première bissectrice. 




yiwL'estimadon 


309 


13.5.2 Espérance d’une variable normale 

13.S.2.1 cr est connu 


d 


X est le meilleur estimateur de ni et À' suit une loi LG 

L’intervalle de probabilité de X à 1 — a est : 

a — 

ni — u a n~f= < X < m + u 
'in 

’où l’intervalle de confiance : 





_ <T _ cr 

-VT * 11 ci/^ 7= /// -V ”f" Il u 

~ in 'in 


si 1 — a = 0.95 on a u a/1 = 1.96. 

13.5.2.2 cr est inconnu 


X — ni I - 

On utilise le lait que T = ———in — 1 suit une loi de Student à (n — 1) degrés de 

ij 

liberté. 


L’intervalle de probabilité pour / est : 


' t r.n ^ 


X - ni 


V/i - i 


< ir 


d’où l’intervalle de confiance 




< ni < x + /„ 




ou bien : 


s* 

x ~ Lt/z ~r 
in 


< m < x + t 


s* 

aP 'l7i 


Le théorème central-limite a pour conséquence que les intervalles précédents sont valables 
pour estimer ni d’une loi quelconque que n est assez grand. 

13.5.3 Variance d’une Soi normale 

13.5.3.1 m est connu 

1 " n T 

T — - 2 j (Xj — m) 2 est le meilleur estimateur de cr 2 et — suit un xî comme somme de 

'0=1 CT- 

n carrés de LG(0, 1) indépendantes. 





Soit k i et k 2 les bornes de l’intervalle de probabilité d’un Xü (hg- 13.3) : 


P 



nT 

< — < 
cr 


ki 


= 1 — a 



L’intervalle de confiance est : 


ni . nt 
— < cr 2 < — 
k 2 k [ 


13.5.3.2 m est inconnu 


t 1 ^ , nS 1 -, 

On utilise S- = - “ X)- et on sait que —- suit Xü-n S01t h et /■> les bornes de 

» ,'=i or- 


l’intervalle de probabilité : 


nS 2 

P /,< — </, = 1 - a 

cr~ 


On a alors : 


ns~ , ns~ 

— < (j- < — 

h h 


i Exemple : n = 30 ; s 2 — 12 ; 1 — a = 0.90 ; 8.46 < cr 2 < 20.33 d’où 2.91 < tr < 4.51. 
Note importante : Ces formules ne sont valables que si x suit une loi normale. 


13.5.4 Intervalle de confiance pour une proportion p 

Etant donné une population infinie (ou finie si le tirage s’effectue avec remise) où une 
proportion p des individus possède un certain caractère, il s’agit de trouver un intervalle de 
confiance pour p à partir de/, proportion trouvée dans un échantillon de taille n. 

On sait que «/suit une loi binomiale 55(«,/?) ; si n est faible on utilisera les tables de la 
loi binomiale ou l’abaque (voir Table A3, bis). 
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Si n est grand on sait que 11 F ~ N{np ; A jnp(l ~ p )) donc que : 


L'intervalle de probabilité symétrique est : 

Ipü - p) ^ n ^ , ,Rï - p ) 

p - u a /iyj —-— < F<p + « tt/2 ^—-— 

Posons n„y 2 = A* pour simplifier les notations. 

Les bornes de l’intervalle de probabilité sont données par : 


y = p ± k 


P( 1 ~ P ) 


soit 


(v - p) 


-, k l p{ 1 - p) 


ou : 


y 2 H- /n 1 + 


k 2 


_ k 2 p 

2 pv - - = 0 

n 


Équation d'une ellipse passant par l’origine et le point (1, 1), points pour lesquels elle a 
une tangente verticale (fig. 13.4). 



Les parties de l’ellipse extérieure au carré unité sont sans signification ; elles correspon¬ 
dent aux zones où l’approximation normale n’est pas valable. 

Étant donné une valeur / observée, l’intervalle de confiance s’obtient en résolvant en 
p l’équation : 
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ou : 


/; 2 I 1 + ~\ ~ p (— + 2/J +/ 2 = 0 


Résolvons-la complètement : 


k 2 


k 2 


A = — + 2/ -41+ - / 2 = ~ + 4/--4/ 2 - 


k 4 , Ir k 2 kr 


d’où : 


2 / + 


k 4 k 2 ,Jt 2 

_ + 4/--4/ 2 - 

77 “ 77 77 


21 1 + — 

77 


formule encombrante mais dont on peut trouver une approximation en considérant que 
7 / est grand et en faisant un développement Limité au premier ordre en (I/77) ; le premier terme 
. k 2 

- —— ~ / + 0 I — I, le second se réduit en simplifiant par ir : 


2 1 + 


k 4 + 4fnk 2 ~ Afnk 2 . k 4 + 4fnk 2 - 4 f 2 nk 2 


4(77 + k 2 ) 2 


471 2 + 8/c 2 77 + 4 k 4 


ce radical est équivalent au suivant (en écrivant que chaque terme est équivalent à celui du 
plus haut degré en 77) : 


'fn k 2 -f-nk 2 = yq -/) 

77 2 \ 11 

donc, on a si n est grand, l’expression approchée suivante pour l’intervalle de confiance : 


, J/q-/)^ J/q-/) 

/ - » a /2 V - < P < f + »ct/2 


m Exemple : n = 400 ;/ = 36 % ; 1 — a = 0.95. On a 0.31 < p < 0.41. m 

Application : Détermination de la taille d’un échantillon en fonction de la précision sou¬ 
haitée. 

Supposons que l’on désire connaître p avec une incertitude ± Ap pour un niveau 
de confiance donné 1 — a à risques symétriques. La formule précédente nous indique que : 

, J/q - f) 

Ap = n I 1 / 2 y —-— 


soit : 


_ ("ar-) 2 fO - f) 

(Ap ) 2 
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Si/est inconnu on obtient une majoration de n en posant/= 1 /2 (cas le plus défavorable 
pour un sondage). D’où la relation : 


< {lla)2 
4(A p) 2 


Dans le cas d'un intervalle à 95 %, u a/2 — 1.96 # 2, ce qui donne la formule approchée : 


1 

(A P Ÿ 


on a les valeurs approchées suivantes de n : 



Remarque : Les formules précédentes sont souvent abusivement utilisées (en parti¬ 
culier dans les médias) pour expliquer les marges d’erreur des sondages d’opinion. 
On ne peut en réalité pas les appliquer aux sondages d’opinion, sauf à la rigueur pour 
donner une borne supérieure de l’erreur d’échantillonnage : en effet, les sondages 
d’opinion ne sont pas effectués selon la méthode du tirage aléatoire simple équiproba¬ 
ble dans la totalité de la population, mais selon des techniques bien plus complexes 
(stratification, quotas etc. cf chapitre 20) qui conduisent à diminuer la marge d’erreur du 
sondage simple en utilisant des informations auxiliaires. Signalons enfin que ces calculs 
de variance ne servent qu’à calculer l’erreur due au tirage aléatoire des observations ; 
l’échantillonnage n’est qu’une des sources d’erreur, pas toujours la plus importante, 
laquelle s’ajoute bien d’autres types d’erreurs : non-réponse ou refus, dissimulation, 
incompréhension des questions etc. 

13.5.5 Intervalle de confiance pour le paramètre A. 
d’une fol de Poisson 

Soit x la moyenne d’un n-échantillon d’une variable 

Comme on sait que P{X < k) = P(x^. + 1) > 2\), on en déduit l’intervalle de confiance 
pour A. à risques symétriques de niveau 1 — a. : 

// Xlnx ; a/2 — A — Xl(iû + 1 ) ; I - ” 


où xl -.a est I e quantité d’ordre a. d’un y 2 à c degrés de liberté. 
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Exemple : n = 15 ; nx = = 20 ; a = 0.1. 


i i , 

™ Xïo ; 5‘n- — ^ ~ 30 : 95< * 


26.5 x 58.1 

- < \ < — 

30 30 


soit 0.88 


1.94 


Pour les grandes valeurs de n, lorsque 2 nx dépasse les possibilités des tables de x 2 , on 
utilisera une des approximations normales de la loi du x 2 - Si l’on utilise l’approximation 
de Wilson et Hilferty, qui est de loin la plus précise, on a : 


x 1 - 


1 


3V/U' 9 nx 


1 

.Y + ~ 


n/\3\jnx + 1 


+ 1 


1 


9 (nx + l) 


13.5.6 Ellipsoïde de confiance pour la moyenne 
d’une loi de Gauss multidimensionnelle 

On a vu au chapitre 12 paragr. 12.3 que le centre de gravité d’un //-échantillon suivant une 
loi N f) ( |x ; S) était tel que si 2 est connu : 

//(g - |x)'2 _, (g - M-) = XJ, 


ou si 5 est inconnu : 


(// - p) 


(g - |x)'V 1 (g - |x) = F(p ; n - p) 


On peut donc en déduire des zones de confiance ellipsoïdales de p. autour de g définies par : 


(g - p)'V '(g - p.) 


n — p 


F\- a (p ; n ~ p) 


Pour p = 2 on a des zones elliptiques dans le plan. Lorsque n est très grand, toujours pour 
p = 2, l’ellipse à 95 % a pour équation approximative : 

(g - p-VV-'lg - p.) - - 
n 

Les résultats précédents s’appliquent en particulier pour les estimateurs du maximum de 
vraisemblance car ils sont asymptotiquement normaux. 

La figure suivante donne l’ellipse de confiance à 95 % pour la position simultanée des 
moyennes de deux variables dans un échantillon de 24 observations (prix et superficie 
d’appartements parisiens*). La forme elliptique est ici très accentuée car le coefficient de 
corrélation entre les deux variables est élevé r = 0.9733 


' Les données sont présentées au chapitre 16, § 16,-1.1. 
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13.6 INTERVALLES DE PRÉDICTION ET DE TOLÉRANCE 

8 3.6.1 Prévision d’une valeur d’une loi normale 

Lorsque m et a sont connus, l’intervalle de probabilité 0.95 à risques symétriques pour 
une valeur isolée est m ± 1.96cr. Supposons maintenant que m soit inconnu et estimé par la 
moyenne d’un «-échantillon x. Soit X une nouvelle observation, indépendante des n précé¬ 
dentes. L’écart entre X et X suit alors une loi nonnale : 


N 0 ; 1 + - car V(X - X) = cr + 

n / 


<T“ 

II 


On en déduit l’intervalle de prévision pour une valeur future x ± 1.96cr 



X 


Lorsque <r est aussi inconnu, en appliquant la méthode de Student, on trouve aisément que 
X 


X 


:J" + 1 s* J" ± 1 
V - i v n 


= r„_i d’où l’intervalle .v ± ts 


n + 1 
n - 1 ' 


L’intervalle précédent est une estimation de l’intervalle m ± 1.96cr. On voit aisément 
qu’il est plus large et converge vers lui lorsque n augmente indéfiniment. On l’appelle 
intervalle de tolérance sans niveau de confiance, car il existe aussi des intervalles de tolé¬ 
rance avec niveau de confiance 1 — a, tels que l’intervalle ni ± 1.96o- soit contenu avec 
une probabilité 1 — a dans l’intervalle de tolérance. Les intervalles de tolérance avec 











316 


/isfestimation 


niveau de confiance sont plus larges que les intervalles de tolérance sans niveau de 
confiance. Les formules sont plus complexes et nous renvoyons le lecteur intéressé à l’ou¬ 
vrage de Hahn & Meeker (1991). 

13.6.2 Ellipsoïde de tolérance 

pour une distribution normale N p (|m ;2) 

De manière similaire, l’ellipsoïde d'équation (x — jjl)' i -1 (x — |x) = k, où k est le fracti- 
le de niveau l — a d’un xjr est un domaine de probabilité 1 — c* pour x. 

Si |x est estimé par g. centre de gravité d’un nuage de n réalisations indépendantes de X, 

alors x — g suit une loi /V ; ,^0 ; l + -j^. Si l’on estime de plus S par la la matrice de variance 

du nuage V, en appliquant les formules du chapitre précédent, on trouve que : 

, . (/2 —■ \)p n + 1 

(x - g) V (x - g) =- F(p ; /i p) 

n — p n 

ce qui donne l’équation de l’ellipsoïde de tolérance en remplaçant la variable de Fisher par 
son fractile. 

En reprenant les données des 24 appartements parisiens, on trouve l’ellipse de tolérance 
suivante avec p = 2. On distingue clairement l’existence de deux points atypiques. 



Superficie 

Figure 13.6 Ellipse de tolérance à 95 % 


Les ellipses de tolérance sont très utiles en analyse discriminante. 
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13.7 ESTIMATION BAYÉSÎENNE 


Le point de vue bayésien ne fait pas de distinction de nature entre paramètres et observa¬ 
tions : ce sont des variables aléatoires. Le problème de l’estimation est alors résolu (en théo¬ 
rie du moins) de façon simple et élégante : il suffit de calculer la distribution a posteriori des 
paramétres sachant les observations. 

f 3.7.1 Présentation 


Soit un n-échantillon dé variables indépendantes et identiquement distribuées telles que 
leurs densités conditionnelles X,/0 soient /(.y,- : 9). 


Il 

Si l’on note comme d’habitude L(x ; 6) — n /<* i ; B), Invraisemblance (ici conditionnelle), 

i 

la loi conjointe des observations et du paramètre (X,, X 2 , . .., X„, 0) est L(x ; Ô)cf(0) où g(0) 
est la densité a priori de 9. 


La loi a posteriori du paramétre est g(0/x) = rr Elle est donc proportionnelle 


/(x) 


au produit de la vraisemblance par la densité a priori. 


On peut donc en déduire des régions probables pour 0. analogues bayésiens des régions 
de confiance classiques, mais aussi des estimations ponctuelles : il suffit de calculer un 
paramètre de tendance centrale de la loi a posteriori, le plus souvent l’espérance, mais 
aussi le mode ou la médiane. 


13.7.2 Estimation bayésienne de la moyenne jm d’une 
loi normale de variance connue 


On suppose ici que la loi de X/ p est une N(p ; cr) et que la loi a priori de p est une N(p 0 ; t). 
Un calcul simple montre que la loi a posteriori de p/X ]( X 2 , .. ., X„ est une loi normale 


’M-o + t 2 X 


d’espérance E(p/x) 


et de variance V(p/x) 


+ T 2 


0“- 


+ T~ 


L’espérance a posteriori de p est donc une moyenne pondérée de l’espérance a priori et 
de la moyenne empirique des observations. Si l’on introduit le concept de précision qui est 

l’inverse de la variance, la précision a priori est ip = —. la précision de la moyenne empi- 

n T ' 

nque est rp = —. 

cr 


On voit alors que £(p/x) 


T|,p 0 + t^X 1 

-— et ——■-— = -ni + ti-,. La précision de l’estima- 

Tl, + Tb V(p/X) L ^ 


teur bayésien est donc la somme de la précision de l’estimation a priori et de celle de 
la moyenne empirique, l’estimateur bayésien est alors la moyenne des deux estimations 
(ci priori et empirique) pondérées par les précisions. Si l’information a priori sur le 
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paramètre est très précise, les observations ne la modifient guère. Si la précision a prio¬ 
ri tend vers zéro, ou si n tend vers l’infini, on retrouve l'estimateur classique X. 

I 3.7.3 Estimation bayésienne d’une proportion p 

Illustrons ce cas par un exemple issu du contrôle de qualité : on est amené à estimer la 
probabilité p qu'une marchandise soit défectueuse à partir de l’observation du nombre de 
marchandises défectueuses X dans un lot de n marchandises. 

Pour une valeur donnée de p , X suit une loi binomiale 5#(/i ; p). L’ensemble des valeurs 
possibles de p peut être probabilisé si des expériences antérieures ont permis d’étudier les 
variations de p . Tout se passe donc comme si p était une réalisation d’une variable tt à valeurs 
dans [0 ; 1] que l’on supposera de densité g(p) (loi a priori). 

On a donc le modèle suivant : la loi conditionnelle de X/t t = p est une S d(n ; p) et la loi 
marginale de tt de densité g(p). On cherche en général à déduire p de la valeur de X. Il faut 
donc pour cela trouver la loi de probabilité a posteriori de tt ou loi de ir/X = a*. 

La formule de Bayes donne : 


MX = A") 


P(X = jc/tt p ) g ( p ) 

P(X = A") 


soit : 


fip/X = x) = 


c x „p x {\ - p)“~ x g{p) 

C x p x { 1 -pT~ x g(p)dp 


p x ( 1 -py- x g(p) 


p x {] - p)" x g(p)dp 


on pourra alors estimer p en choisissant la valeur la plus probable a posteriori ou la valeur 
moyenne a posteriori. 

Si tt suit une loi bêta de paramètre a et b on a : 


9(P) = 


Ha + b) n 

T(ct)T(b) P 


(I pŸ’~ ^ 


d’où : 


g(p/X = x) 


*i 

Jo 


ptl-rx— I ( 1 _ p y, + l,- X- 
pii r.r- I( 1 _ p y + b-x- 


’d p 


donc la loi de tt/X = a est une loi bêta de paramètres a + a et n + b — a. 

a + a 

L’espérance a posteriori vaut alors---. 

P ‘ a + b + n 

Tout se passe donc comme si l’on avait effectué a + b expériences suplémentaires ayant 
mené à a défectueux. 

Le choix des paramètres a et b de la loi bêta se fait en général à partir de considérations 
sur la valeur la plus probable a priori et son incertitude. 

Si l’on choisit a = b = 1 ce qui correspond à une distribution uniforme de tt sur [0 ; l] 
(toutes les valeurs de p sont a priori équiprobables) on trouve comme estimation de p 
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v + 1 . 

soit —— (espérance a posteriori) soit x/n (mode ou valeur de p correspondant au mnxi- 
n + 2 

mum de g(p/x)). 

Remarquons que la loi marginale de X peut s'obtenir aisément : 


P(x = a-)= I C'„p x { i - p)"-*dp = c x P *(I -py-'dp 

Jo Jo 

r(x + 1 )T(/j - x + 1) _ n\ x\(n — a - )! 
" f(/i + 2) x\(n — a')! (n + I)! 


P(X = a) = 

ii + 


La loi de X est alors la loi discrète uniforme sur [0 ; 1 ; ... ; n]. 


13.7.4 Généralisation 

Les deux cas précédents se résolvaient simplement car les lois a priori et conditionnelles 
permettaient de trouver la loi a posteriori dans la même famille que la loi a priori : les lois a 
priori et conditionnelles sont dites « conjuguées ». Cette facilité mathématique disparaît si 
l’on travaille avec des lois quelconques et les calculs des distributions a posteriori deviennent 
impossibles à mener analytiquement. Il faut alors recourir à des techniques spécifiques de 
simulation pour obtenir de bonnes approximations des lois a posteriori (C. Robert, 2001). 

On peut considérer la statistique bayésienne comme un raffinement de la statistique para¬ 
métrique et lui appliquer les mêmes critiques sur le caractère plus ou moins réaliste des 
modèles. De plus le choix de la distribution a priori peut donner lieu à des divergences entre 
spécialistes et reste fatalement subjectif (voir la discussion sur la nature des probabilités au 
chapitre 1). Il n’en reste pas moins que cette approche est la seule qui permette d’incorporer 
de l’information préalable et se révèle très utile dans des cas limites comme des essais de fia¬ 
bilité où on ne constate que très peu de défaillances (voire même aucune) sur n essais : les 
estimations classiques du taux de défaillance sont alors impossibles ou très imprécises. 


13.8 NOTIONS SUR UESTIMATION ROBUSTE 

La théorie classique de l’estimation permet de déterminer les estimateurs optimaux 
pour une famille de lois de probabilité définie à l’avance. Ces estimateurs dépendent en 
général fortement de la loi hypothétique : si celle-ci n’est pas correcte, les estimateurs ne 
le seront pas. On peut donc chercher des classes d’estimateurs relativement insensibles à 
des modifications des lois a priori : c’est un premier type de robustesse. Un deuxième type 
de robustesse concerne l’insensibilité à des valeurs « aberrantes » : la moyenne arithmé¬ 
tique est sans doute le meilleur estimateur de l’espérance pour une vaste classe de lois mais 
elle est très sensible aux grandes valeurs. L’attention des théoriciens et des praticiens a 
donc été attirée sur la recherche d’estimateurs robustes en particulier pour la valeur cen¬ 
trale d’une distribution. 
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On se préoccupera ici d'estimer la valeur centrale ni d’une distribution symétrique. 


La moyenne arithmétique x = - est tr ^ s sensible aux valeurs extrêmes : on obtiendra 


un estimateur robuste de m en éliminant les valeurs extrêmes. On appelle ainsi moyenne 
tronquée d’ordre « la moyenne arithmétique obtenue en éliminant les an plus grandes et plus 
petites valeurs (une valeur généralement recommandée est a = 15 %). 

La médiane est le cas extrême d’une moyenne tronquée (a = 50 %) et est très robuste. 

Au lieu d’éliminer les an plus grandes et plus petites valeurs, on peut les rendre toutes 
égales aux dernières valeurs prises en compte : c’est la “winsorization”. 

Une autre approche est celle des M-estimateurs introduits par P. Huber : on cherche ici p 
qui minimise une fonction du type : 


2p 




où s est un estimateur robuste de la dispersion ce qui revient à annuler ^i|t 




Xj - p 


ou 


On retrouve la moyenne arithmétique avec p(.v) = .v 2 , la médiane avec p(,v) = |.v|. 

Les estimateurs du maximum de vraisemblance sont des cas particuliers de M-estimateurs 


f'(x) 

avec : p(.v) = — ln/(.v) et i|j(.v) = — 


/(A’) 


Remarquons que le M-estimateur p peut s’écrire comme une moyenne pondérée des 
observations : 


i = i 

R = —;— 

É ii '. 

i= i 

— p) 

où vv, dépend des données rv ; —-. 

Xi ~ P 

Pour la moyenne arithmétique 3c i|/(.v) = x. 

Pour la médiane i|/(.v) = l si .v > 0 et i|;(_r) = — 1 si x < 0. 

On obtiendra toute une famille d’estimateur en utilisant diverses formes de v|/ : 


iK-v) = 




pour | .v | 


c 


(Tukey) 



-k 

si ; 

i- < 

-k 

M.ï) = ■ 

x 

si |j 

c|< 

k (Huber) 



si : 

c > 

k 


Ces estimateurs sont obtenus par un processus de calcul itératif. 
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L’estimation robuste de dispersion s est prise généralement égale à la médiane des écarts 
absolus à la médiane. 



Fonction de Huber 


Fonction de Tukey 

Figure 13.7 


Dans l'exemple du chapitre 5. la variable « taux de taxe d’habitation » a une moyenne 
arithmétique de 17.7707, mais présentait quelques valeurs extrêmes. 

Les estimations robustes sont : 

Moyenne tronquée à 5 % : 17.6182 

Estimateur de Huber avec k = 1.339 : 17.8149 

Estimateur de Tukey avec c — 4.685 : 17.6872 

13.9 ESTIMATION DE DENSITÉ 

La densité f(x) d’une variable continue donne une information visuelle importante sur la 
répartition des valeurs. Nous présentons ci-dessous les éléments de la théorie de l’estimation 
de la densité en l’absence de tout modèle paramétrique : on parle d’estimation fonctionnelle 
ou non-paramétrique. On supposera que/(x) est une fonction continue. 

La plupart des démonstrations seront omises au profit d’une présentation pratique. Le lec¬ 
teur intéressé se reportera aux ouvrages de M. Delecroix et B. Silverman cités en bibliographie. 

13.9.1 Généralités 

Pour tout point .v on cherche une fonction des observations (X|, x 2 , .. .) /„( x) possédant les 
propriétés d’une estimation de la densité inconnue/(x). Il semble légitime de souhaiter que : 

- f,(x) soit une densité (positive, d’intégrale égale à 1) 

- f„(x) soit convergent 

- /„(*} soit sans biais 

Un résultat d’apparence paradoxale est que la propriété d’être sans biais est impossible à 
satisfaire : il n'existe pas d’estimateur sans biais en tout point x de la densité. 
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IJ/' 


MISE = El \L(x)-f(x) dx 


13.9.2 De l’histogramme à la fenêtre mobile 


ce qui peut être assuré par h = —. 

a J n 


x 


Pour la convergence, on se préoccupera non seulement de la convergence en tout point 
mais aussi de la convergence uniforme afin de borner l’erreur d’estimation maximale 
sup|/„(-v) ~/(.v) |. 


L’erreur quadratique moyenne intégrée (MISE en anglais) est souvent utilisée pour mesurer 
l’écart quand n est fini entre l’estimateur et la densité inconnue : 


Considérons des histogrammes à classes d’égales amplitudes h. L'histogramme est l'esti¬ 
mateur de la densité le plus élémentaire. 

Pour qu’il soit convergent, il faut faire tendre la largeur de classe vers 0 quand n tend vers 
l’infini, mais il ne faut pas que h tende vers zéro trop vite pour que l’effectif par classe puisse 
quand même tendre vers l’infini et assurer la convergence au point x 11 faut que nh —* ce 


Mais en pratique n est fini et L histogramme souffre de défauts évidents : il est dis¬ 
continu, et constitue donc une approximation rustique d’une fonction continue. De plus 
par construction, tous les points d'un intervalle ont la même densité estimée, ce qui n’est 
pas réaliste. 

Une première amélioration due à Rosenblatt est la méthode de la « fenêtre mobile » : 
on construit autour de chaque x une classe de longueur li centrée sur x : |x - h/2 ; x + /i/2] 

n x 


et on fait ensuite varier x L’estimation en x est f n (x) = — où n x est le nombre d’observations 
tombant dans la classe. 


Cet estimateur reste cependant discontinu, car n x varie de plus ou moins une unité à 
chaque fois que x correspond à une des valeurs x,- de l’échantillon. 

L’exemple suivant montre le résultat pour les données déjà étudiées au chapitre 5 : 



Figure 13.8 
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13.9.3 La méthode du noyau (Parzen) 


Remarquons que l’estimateur de la fenêtre mobile peut s'écrire : 


m = — y,K 

Illl j— | 



où le « noyau » K est la fonction indicatrice de l’intervalle [—1/2 ; 1/2]. 

K{u) = 1 si —- < n < - 
■ 2 2 

K{u) — 0 sinon 

f,(x) est donc une moyenne arithmétique de fonctions donnant à chaque observation .v, un 
poids 1 /h si elle appartient à l’intervalle centré sur .v. 

C’est parce que K est discontinue que f„(x) l’est. Pour obtenir une estimation continue, 
on prendra une fonction noyau K{u) continue ; on la choisira de plus paire par raison de 
symétrie, décroissante quand u s’éloigne de zéro. f,{x) est alors une moyenne de fonctions 
donnant à chaque observation .v,- un poids d’autant plus petit que | .v,- — x j est grand. Si K est 
une densité alors f n (x) le sera également. 

Les noyaux les plus couramment utilisés sont : 


- le noyau triangulaire K(u) — 1 — |//| si — 1 s u < 1 

3 

- le noyau parabolique d’Epanechnikov K(u) — -(1 — u 1 ) si — 1 < u < 1 


le biweight de Tukey K(u) = —— (1 — //- ) 2 si — 1 < u < 1 

16 


le noyau sinusoïdal K{u) = — cos — u ) si — 1 < w < 1 


- le noyau gaussien K{u) — -?= expf ——ir 


2 


Les noyaux à support borné nécessitent moins de calculs que le noyau gaussien. La 
constante de lissage h détermine la régularité de f n (x). Comme pour la largeur des classes 
d’un histogramme un h trop grand lisse trop et un h trop petit conduit à une estimation très 
chaotique alors que le choix du noyau n’est pas crucial. 

Ainsi pour les mêmes données que précédemment on trouve les estimations suivantes pour 
le noyau sinusoïdal avec trois largeurs de fenêtre 10 %, 20 % et 30 % de l’étendue de X) : 
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Figure 13.9 
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Le choix de la valeur « optimale » de h a fait l’objet d’une abondante littérature. Outre le 
choix subjectif par inspection visuelle (les logiciels permettent souvent de faire varier h en 
continu avec un curseur), mentionnons : 


- la règle gaussienne h = cf|4-/(3n)] l/;i 

, „ , , p ., , 0.9min [à ; (0 3 - Q { )/ 1.34] 

- la réglé de Silverman h — —-- 


, 1/5 


la validation croisée généralisée où on cherche en quelque sorte une estimation du maxi- 

n 

mum de vraisemblance mais en enlevant .v, pour l’estimation en .v, rnaxI3/«-i(- v <)- 

h ,= i 











Les tests 
statistiques 


14.1 INTRODUCTION 
S 4.1.1 Les faiseurs de pluie 

Des relevés effectués pendant de nombreuses années ont permis d'établir que le niveau 
naturel des pluies dans la Beauce en millimètres par an suit une loi de Laplace-Gauss 
LG(600, 100). 

Des entrepreneurs, surnommés faiseurs de pluie, prétendaient pouvoir augmenter de 
50 mm le niveau moyen de pluie, ceci par insémination des nuages au moyen d’iodure 
d’argent. Leur procédé fut mis à l’essai entre 1951 et 1959 et on releva les hauteurs de 
pluies suivantes : 


Année 

1951 

1952 

1953 

1954 

1955 

1956 

1957 

1958 

1959 

mm 

510 

614 

780 

512 

501 

534 

603 

788 

650 


Que pouvait-on en conclure ? Deux hypothèses s'affrontaient : ou bien l’insémination était 
sans effet, ou bien elle augmentait réellement le niveau moyen de pluie de 50 mm. 

Ces hypothèses pouvaient se formaliser comme suit, si m désigne l’espérance mathématique 
de X variable aléatoire égale au niveau annuel de pluie : 

( H () : m — 600 mm 
H { : m = 650 mm 

Les agriculteurs hésisant à opter pour le procédé forcément onéreux des faiseurs de 
pluie tenaient pour l’hypothèse H 0 et il fallait donc que l’expérience puisse les convaincre ; 
c’est-à-dire que les faits observés contredisent nettement la validité de l’hypothèse H {) dite 
« hypothèse nulle » s’appelle l’hypothèse alternative). Les agriculteurs n’étaient donc 
décidés à abandonner H {) qu’en présence de faits expérimentaux traduisant une éventualité 
improbable compte tenu de H a . 

Ils choisirent a = 0.05 comme niveau de probabilité, c’est-à-dire qu’ils étaient prêts à 
accepter H x si le résultat obtenu faisait partie d’une éventualité improbable qui n’avait 
que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que 
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des événements rares ne sauraient se produire sans remettre en cause le bien-fondé 
de l’hypothèse de départ H 0 ; ce faisant, ils assumaient le risque de se tromper dans 5 cas 
sur 100, cas où précisément les événements « rares » arrivent quand même. 

_Comment décider ? Puisqu’il s’agit de « tester » la valeur w il est naturel de s’intéresser 
à X moyenne des observations qui nous apporte le plus de renseignements sur ni. X est la 
« variable de décision ». 

Si H {) est vraie, comme l’expérience a porté sur n = 9 ans, X doit suivre une loi de 

/ 100 \ 

Laplace-Gauss LGI 600, ~j=- I. 

En principe, de grandes valeurs de X sont improbables et on prendra comme règle de déci¬ 
sion la suivante : 

Si X est trop grand, c’est-à-dire si X est supérieur à un seuil k qui n’a que 5 chances sur 
100 d’être dépassé, on optera pour avec une probabilité 0.05 de se tromper. 

Si X < le on conservera H () faute de preuves suffisantes. Il est facile de calculer k grâce 
aux tables et on trouve : 



600 k 

Figure 14.1 


La règle de décision est donc la suivante : 

- si X > 655 mm, repousser H 0 et accepter ; 

- si X < 655 mm, conserver H () . 

L’ensemble d’événements (X> 655) s’appelle la région critique ou région de rejet 
de H {) . L’ensemble complémentaire (X < 655) s’appelle la région d’acceptation de H 0 . 

Or, les données relevées indiquent que x = 610.2 mm. La conclusion était donc de conser¬ 
ver //„ ; c’est-à-dire que l’insémination était sans effet notable sur le niveau des pluies : 
les valeurs observées pouvaient donc être dues au hasard en l’absence de toute influence de 
l’iodure d’argent. 

Cependant, rien ne dit que conserver H (] mette à l’abri de se tromper : en effet, les faiseurs 
de pluie ont peut-être raison, mais on ne s’en est pas aperçu. 

Il y avait deux manières de se tromper : croire les faiseurs de pluie, alors qu’ils n’étaient 
pour rien dans le résultat obtenu (probabilité a = 0.05) ; ne pas croire les faiseurs de 
pluie, alors que leur méthode est bonne et que seul le hasard (malencontreux pour eux), 
dû au faible nombre d’observations, a donné des résultats insuffisants pour convaincre les 
agriculteurs. 
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, 100 , 

Supposons que les faiseurs de pluie ont raison, alors X e LG[ 650, j. On commet 
une erreur chaque fois que X prend une valeur inférieure à 655 mm, c’est-à-dire avec une 

probabilité : 

655 — 650' 

= P(U < 0.15) (3 = 0.56 


(3 = P[U < 


100/3 


ce qui est considérable. 

a s’appelle le risque de première espèce ; p s’appelle le risque de deuxième 
espèce. 

On aura remarqué au cours de cet exemple le rôle particulier joué par H {) : si la forme de 
la région critique X > k est indiquée par la nature de //, (650 plus grand que 600) la valeur 
de k ne dépend que de H f) . 

Les deux hypothèses ne jouent pas des rôles symétriques, k est déterminé par 7/ n et a ; 
(3 est déterminé par la considération supplémentaire de H\. 


14J .2 Les grandes catégories de tests 


On peut classer les tests selon leur objet (ajustement, indépendance, de moyenne, de 
variance, etc.), ainsi qu’il est fait dans la suite du livre ou selon leurs propriétés mathéma¬ 
tiques : on parle ainsi de tests paramétriques ou non, de tests robustes, de tests libres. 

Un lest est dit paramétrique si son objet est de tester certaine hypothèse relative à un ou 
plusieurs paramètres d’une variable aléatoire de loi spécifiée ou non : le paragraphe 14.2 en 
donne des exemples. Dans la plupart des cas, ces tests sont basés sur la loi normale et 
supposent donc explicitement l’existence d’une variable aléatoire de référence X suivant 
une loi LG. La question se pose alors de savoir si les résultats restent encore valables lorsque 
X n’est pas normale : si les résultats sont valables on dit que le test en question est robuste. 
La robustesse d’un test par rapport à un certain modèle est donc la qualité de rester rela¬ 
tivement insensible à certaines modifications du modèle : on constatera que les tests de 
moyenne ou de non corrélation sont robustes. 

Une catégorie particulièrement intéressante de tests robustes est la classe des tests libres 
(en anglais distribution free) : il s’agit de tests valables quelle que soit la loi de la variable aléa¬ 
toire étudiée, donc valables en particulier lorsque l’on ignore tout de cette loi (cas très fréquent 
en pratique) ; on peut dire qu’il s’agit de tests robustes par rapport à la loi de probabilité. 
Exemple : les tests d’ajustement du x 2 - Ces tests sont bien souvent des tests non paramétriques 
mais pas nécessairement (tests de moyenne). 

Pour les tests paramétriques on distingue généralement hypothèses simples et hypothèses 
composites : 

- une hypothèse simple est du type H : 0 = 0 O où 0 O est une valeur isolée du paramètre ; 

- une hypothèse composite est du type H : 0 e A où A est une partie de [R non rédui¬ 
te à un élément. 

La plupart des hypothèses composites se ramènent aux cas : 0 > 0 O ou 0 < 0 O ou 0 =£ 0 O . 

En fait, on construira les régions critiques en utilisant la valeur 0 a seule. Lorsque l’hypo¬ 
thèse alternative est composite, la puissance du test est variable et on parle de fonction puis¬ 
sance 1 - (3(0). 
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14.2 THÉORIE CLASSIQUE DES TESTS 

Un test est un mécanisme qui permet de trancher entre deux hypothèses au vu des résul¬ 
tats d’un échantillon. 

Soient ff 0 et //, ces deux hypothèses, dont une et une seule est vraie. La décision aboutira à 
choisir//,, ou H,. Il y a donc 4 cas possibles schématisés dans le tableau 14.1 avec les proba¬ 
bilités correspondantes : 


Tableau 14.1 


Vérité 

Ho 

H t 

Décision 


Ho 

1 — CL 

P 


a 

1 -(3 


I 4.2.1 Risques et probabilités d’erreur 

a et (3 sont les probabilités d’erreur de première et deuxième espèce : 

- a probabilité de choisir H, alors que H () est vraie ; 

- j3 probabilité de conserver H 0 alors que H { est vraie. 

Ces erreurs correspondent à des risques différents en pratique ; ainsi dans l’exemple des 
faiseurs de pluie le risque de première espèce consiste à acheter un procédé d’insémination 
inefficace ; le risque de deuxième espèce à laisser perdre une occasion d’augmenter le niveau 
de pluie et peut-être de récoltes plus abondantes. 

Dans la pratique des tests statistiques, il est de règle de se fixer a comme donné (les 
valeurs courantes sont par exemple 0.05, 0.01 ou 0.1 ) de préférence en fonction du risque de 
première espèce couru, ce qui fait jouer à H {) un rôle prééminent. 

Le choix de H () est dicté par des motifs assez variables : 

- puisqu'on ne veut pas abandonner trop souvent H 0 , H () doit être une hypothèse soli¬ 
dement établie et qui n’a pas été contredite jusqu’à présent par l’expérience ; 

- H 0 est une hypothèse à laquelle on tient particulièrement pour des raisons qui peuvent 
être subjectives ; 

- H 0 correspond à une hypothèse de prudence ; exemple : test de l’innocuité d’un vaccin ; 
il est prudent de partir d’une hypothèse défavorable au nouveau produit ; 

H ü est la seule hypothèse facile à formuler ; exemple : tester ni = w 0 contre ni w 0 ; 
il est évident que seule H {) : m — m 0 permettra d’effectuer des calculs. 

a étant fixé, (3 sera déterminé comme résultat d’un calcul (ceci n’est possible que si l’on 
connaît les lois de probabilités sous H { ). 

Cependant il faut savoir que (3 varie en sens contraire de a. Si l’on veut diminuer a risque 
d’erreur de première espèce, on augmente 1 — a probabilité d’accepter H 0 , si H () est vraie ; 
mais surtout on est conduit à une règle de décision plus stricte qui aboutit à n’abandonner Ho 
que dans des cas rarissimes donc à conserver H t) bien souvent à tort. 
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A force de ne pas vouloir abandonner H (] on finit par la garder presque tout le temps, donc 
on augmente [3. 

I — (3 est la probabilité d'opter pour H { en ayant raison. I — (3 s’appelle « puissance du 
test )). 

a étant fixé, il importe de choisir une variable de décision : variable qui doit apporter le 
maximum d'informations sur le problème posé et dont la loi sera différente selon que H () ou 
//, est vraie (sinon elle ne servirait à rien). Il faut que sa loi soit entièrement connue au moins 
si H () est vraie. 

La région critique W est l’ensemble des valeurs de la variable de décision qui 

conduisent à écarter H 0 au profit de H,. La forme de la région critique est déterminée 

par la nature de H x , sa détermination exacte se fait en écrivant que : 

P(W\H 0 ) = a 

La région d'acceptation est son complémentaire W et Ton a donc : 

P(W\H 0 ) = 1 - a et P(W\H X ) = 1 - (3 

La construction d’un test n’est rien d’autre que la détermination de la région critique, cette 
détermination se faisant sans connaître le résultat de l’expérience, donc a priori. 

La démarche d’un test est la suivante (pour résumer) : 

1) Choix de H () et H x . 

2) Détermination de la variable de décision. 

3) Allure de la région critique en fonction de H x . 

J 4) Calcul de la région critique en fonction de a. 

5) Calcul éventuel de la puissance 1 — (3. 

6) Calcul de la valeur expérimentale de la variable de décision. 

7) Conclusion : rejet ou acceptation de H (] . 

14.2.2 Choix de la variable de décision et de la région critique 
optimales : la méthode de Neyman et Pearson 

La façon de choisir la variable de décision n’a pas encore été élucidée dans les paragraphes 
précédents où nous nous sommes contentés de formaliser l’intuition. 

Le choix de la meilleure variable de décision a été résolu théoriquement par les statisticiens 
J.Neyman et E.S.Pearson dans une série d’articles célèbres parus de 1933 à 1938. 

Mais que veut dire « meilleure variable », ou plutôt ainsi que nous l’utiliserons désormais, 
région critique optimale ? 

Nous cherchons la région critique optimale c’est-à-dire un domaine de IR' 1 parmi l’ensemble 
de toutes les réalisations possibles de l’échantillon (X), X 2 . ..., X„) dont la forme définira 
ensuite une variable statistique. 

II s’agit de maximiser la puissance I — f$ ceci pour une valeur donnée de a risque 
de première espèce. 

Nous allons tout d’abord envisager le test entre deux hypothèses paramétriques simples 
puis nous généraliserons à d’autres types d’hypothèses. 
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Soit X une variable aléatoire de densité/( x, 0) où 0 est un paramètre réel inconnu ; L(x, 0) 
désignera en abrégé la densité de l’échantillon. 


Il s’agit de tester : 


H 0 -.Q = e 0 

Hi : 6 = 0 , 


Supposons a connu. Soit W une région de R' 1 telle que : 


L(x, B 0 )dx = a = P(W\H 0 ) 
J U' 


Il s’agit de maximiser : 1 — p = L(x, 0|)dx = P{W\H{) 

Jir 


Nous pouvons écrire : 1 — |3 


L(x, 0)) 
>L(x, 0 O ) 


L(x, 0 o )dx 


Théorème de Neyman et Pearson 


La région critique optimale est définie par l'ensemble des points de R" tels que 

a* ; e.) ^ j. 

L(x ; 0 O ) Vü 


ms Démonstration 

® S’il existe une constante k a , telle que l’ensemble W des points de R" où : 

L(x^> 

L(x ; 6„) 

soit de probabilité a sous H 0 : P(W\H 0 ) = a, alors cette région W réalise le maximum 
de 1 - p. 

En effet soit W' une autre région de R" telle que P(W'\H (] ) = a \W' diffère alors de W par 
L(x : 0,) 

des points où-< k a (fig. 14.2). L’intégrale : 

L(x;0 o ) 


L(x ; 0|) 
w L{x ; 0 O ) 


L(x ; 0 o )dx 



Figure 14.2 
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diffère de T intégrale : 


I L(x;0,) 
h" L{\ ; 0 O ) 


L(x ; 0 o )dx 


pour les parties non communes à W et W. 

W et W' ayant sous H 0 même mesure a, l’ensemble (W - W) des points de W n’appar¬ 
tenant pas à W 7 ' a même mesure sous H () que l’ensemble ( W' ~ W 7 ) des points de W 
n’appartenant pas à W. 


L’intégrale : 


L(x ; 0|) 
Ju'-tr L(x : 0 O ) 


L(x : 0 ( ))dx 


est alors strictement supérieure à : 


J v 


l(x;0i) 
w -iv L(x ; 0 O ) 


L(x ; 0 ( ,)dx 


comme intégrale, prise par rapport à la mesure L(x ; 0 o )dx sur un ensemble de même 
mesure, d’une fonction strictement supérieure ; le théorème de la moyenne indique en effet : 


[ L(x : 0,) L(£' ; 0,) , . 

avec £'e W’ - W 

f ttAt! Lix • e ») dx = TTir, P(W ~ w '!"<>) 

Jiv-r L{X ; 0 O ) L(% ; 0 O ) 

avec ij e W — W 

ce qui démontre le point a) car : 


U%'-B ,) _ i(€ ; 0.) 

Uè';%) o) 



® Montrons que cette constante k a existe. 

Soit A(/0 la région de R" où L(x, 0,) > KL(x, 0 O ) et considérons P(A(K)\H Ü ) qui est une fonc¬ 
tion continue monotone de K, si X est à densité continue. Comme L(x, 0,) est toujours positif, 
car c’est une densité, on a P(A(0)ltf o ) = 1. D’autre part si avec une densité bornée on a 

P{A(K)\H 0 ) 0. Il existe donc une valeur intermédiaire k a telle que P(A(A: a )) = a. ra 


14.2.3 Étude de 1 — (3 : puissance du test 


Nous allons montrer que 1 - [3 > a. Un tel test est dit sans biais 

P(W\H { ) > P(W\H {] ) 
puisque : L{x, 0 1 ) > k u L(x, 0 O ) 

d’où : 


L(x, 0j)dx > k u I L(x, 0 o )dx 
iv J\v 


Si k a est > 1 la proposition est triviale ; si k u est < 1 nous allons montrer, ce qui est 
équivalent, que (3 < 1 — a : 

[3 - P(W\H { ) et 1 - a = P{W\H Ü ) 
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— L(x, 0,) 

fv est tel que — < k a , donc : 


L(x, 0 O ) 


J, 


L(x, 0|)dx < A' u 


_ L(x, 0 o )dx 
iv 


ce qui démontre la proposition. 

Convergence du test : On peut démontrer que si n =£, 1 — 3 —> 1. 

Remarque : Comme P(A(K)) est une fonction monotone de K , on voit que si a diminue, 
k a augmente ; donc diminuer le risque de première espèce a fait augmenter le risque de 

deuxième espèce (31 — [3 = p(— ^ > k a \ H l ] est une fonction décroissante de k. 

\C(x, 0 O ) / 

S 4.2.4 Tests et statistiques exhaustives 

La considération d’une statistique exhaustive simplifie considérablement la pratique du 
test car alors la région critique en dépend exclusivement. 

S’il existe une statistique exhaustive T pour 0, de densité g(t , 0), on a : 

L(x, 0) = c/(/, 0)/;(x) 

Le test de Neyman et Pearson se réduit alors à : 

^M>k. 

gU. e„) 

14.2.5 Exemple 

Test de la moyenne d’une loi de Laplace-Gauss, d'écart-type cr connu : 

/7 0 : LG (/no, or) contre :LG(m u c) 

La statistique exhaustive pour m est Â et : 

1 


g(x, m) = 


Le rapport des densités donne : 


exp 


1 (x - m V 

2 \ cr 


r/Vü 


gix, ut 0 ) 

giX mi) 
g(X m n ) 


exp 


2cr~ 


- [(a- - //J ,) 2 - (a - /»o) 2 ] 


Écrire que > k u est équivalent à écrire que (a — w 0 ) 2 — (a — m |) 2 > k’ a soit : 

g(x, /n 0 ) 


(/n, - hi„)(2a - ni 0 -/?(,)> k' a 
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Si ;«| > m 0 il est équivalent d’écrire x > 

Si ni | < m 0 il est équivalent d’écrire .v < /c"'. 

Ce résultat évident à l’intuition exprime que si m, > ;» 0 , on rejettera H () si X est trop 
grand. On trouve la constante k en écrivant P(X > k \ H ü ) = a. 

En représentant sur un même graphique les densités de X dans H {) et dans /-/, on a la 
figure 14.3. 



[4.2.6 Tests entre hypothèses composites 

14.2.6.1 Test d’une hypothèse simple contre une hypothèse composite 


ess Exemples : 


fW o :0 = 0 o fB = 6„ 

[H, : B > 0» 19 - 0 |) 


® La fonction puissance 

L’hypothèse H ] étant composée d'un ensemble de valeurs de 0, pour chaque valeur parti¬ 
culière de 0 on peut calculer 1 — (3(0), d’où une fonction, dite fonction puissance, décrivant 
les variations de 1 — (3 selon les valeurs de 0 dans H x . 

La figure 14.4 montre la fonction puissance du test H ü : ni = 600 contre : ni > 600 
correspondant à l'exemple introductif. 



Figure 14.4 Fonction puissance. Test unilatéral H 0 — 600. 


Note : la courbe donnant (3 en fonction du paramètre est appelée courbe d’efficacité. 
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« Tests UPP 

Un test est dit uniformément le plus puissant (UPP) si, quelle que soit la valeur de 
0 appartenant à l’hypothèse alternative, sa puissance 1 — [3(0) est supérieure à la puissance 
de tout autre test. 

m Exemple : Dans le test H {) : ni = m 0 contre H y : m = ;?i, > w 0 , on a pu remarquer que la 
région critique ne dépend pas explicitement de m, et donc que cette région critique est 
la même pour n’importe quel m, > m (l . Le test précédent est donc UPP pour H () : m — ni 0 
contre H y : m > m 0 . 

Il est évident cependant qu’il n’existe pas de test UPP pour H {) : m = m () contre H { : ni A m a 
car, s’il en existait un il devrait être UPP pour les deux sous-hypothèses H\ : m > m G et 
H" : ni < m 0 . Or les tests de H 0 contre H\ et H () contre H" sont précisément UPP et différents 
l’un de l’autre. m 


14.2.6.2 Test entre deux hypothèses composites 

Si H {) est elle-même composite, a dépend de 0 selon les valeurs de 0 e H (h et l'on devra 
exiger a( 0 ) ^ a donné. 

L’existence de tests UPP pour les cas suivants : 

f// 0 : 0 < 0 O J7/ o :0 < 0, ou0 > 0 2 

[//, : 0 > 0 O 6t [//, : 0, < 0 < 0 2 


est assurée par le théorème de Lehmann que nous ne démontrerons pas. 

L(x ; 0,) 

Ce théorème suppose l’existence d’une statistique G telle que le rapport --— est une 

L(x i 62 ) 

fonction monotone croissante de G si 0, > 0 2 (théorème dit « du rapport de vraisemblance 
monotone »). 

De telles statistiques sont fournies par les statistiques exhaustives des lois de forme 
exponentielle. 


D’autre part il n’existe pas de tests UPP pour les cas // 0 : 0 , < 0 < 0 2 contre H y : 0 > 0 3 
ou 0 < 0, et a fortiori : H 0 : 0 = 0 O contre H y : 9 =f 0 () . 

Dans les cas où il n’existe pas de tests UPP, on cherchera s’il existe de bons tests parmi une 
classe plus restreinte, celle des tests sans biais par exemple. Ainsi pour le test précédent il existe 
un test UPP sans biais s’il existe une statistique G(x) répondant à la condition de Lehmann et la 
région critique est : 

G(x) < C| ou G(x) > c 2 


14.2.6.3 Test du rapport des vraisemblances maximales 

Ce test est fort utile là où les méthodes précédentes ont échoué : 

• Test de H 0 

0 = 0 O contre H y : 0 ~ 0 O où 0 peut être un paramètre vectoriel de dimension p. 


Posons : 


Ux, Qq) 

supL(x, 0 ) 


on a donc 0 < X < 1. 
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X est intuitivement une statistique convenable pour un test car plus X est grand, plus 
l’hypothèse H 0 est vraisemblable (principe du maximum de vraisemblance). Cela revient 
à remplacer 0 par son estimation 0 par la méthode du maximum de vraisemblance. 

La région critique du test sera : X < K 


Théorème I 


La distribution de —2 ln X est asymptotiquement celle d’un Xp dans l'hypothèse H () . 


m Démonstration : Nous la ferons pour p — 1. On a, en développant en série de Taylor : 

In L(x, 6 0 ) - ln L(x, 0) = (0 O - 0)— ln L(x, Ô) 

00 

+ ^(fl 0 “ ê)~lnL(x, 0*) 

OU 0* 6 [0 () , 0]. 


Comme B est l’estimateur du MV on a — ln L(. v, 0) = 0, d’où : 

00 

-21nX = -(0 o -0) 2 ~lnL(x, 6*) 

00 " 

Dans l’hypothèse H {) : 0 = 0 () , on sait que l’estimation du MV converge presque sûrement 
vers 0 O ; donc 0* —> 0 O et lorsque n —* œ : 

3 2 In L(x ; 0*) d 2 ln f(x i ; 0) _ 1 v B 2 ln/'(.v, ; 0) 

de 2 d6 2 ~ U ii 00 2 

Lorsque n —* oc, la loi des grands nombres nous indique que : 

0 2 ln/ 


l v 0 2 In/(.v,-;0) „ 

- >£ 


Û0 2 


/>(ô) 


Donc : 

On a alors : 


d 2 ln L(x ; 0*) 
30 


■*«/,(0)* W 


-2 ln X ~ (0 O - 0) 2 /„(0 o ) 


0 _ g 

D’autre part on sait qu e j == —» LG(0 ; 1) . Donc(0 o - 0) 2 /„(0 o ) —* Xo ™ 

Note : Le domaine de définition doit être indépendant du paramètre. 

Théorème 2 

1 Si n —■> 0 e , la suite des tests est convergente , c’est-à-dire que la puissance 1 — (3 —> 1. 


® Test entre deux hypothèses composites. 

sup L(x, 0) 

On formera X — — et on obtient les mêmes propriétés que précédemment. 

OeH, 
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14.2.7 Niveau de signification, risques, vraisemblance 
et approche bayésienne 

Dans la théorie classique que nous venons d’exposer, issue des travaux de J. Neyraan et 
E.S. Pearson. un test se présente sous forme d'une règle de décision binaire formulée a priori , 
c'est-à-dire avant d’avoir fait les observations, et intangible dès que le risque a a été fixé. Les 
données recueillies ne peuvent modifier cette règle et ne sont utilisées qu’ a posteriori : on est, 
ou on n’est pas, dans la région critique. Cette manière de procéder interdit toute manipulation 
des résultats et garantit l’objectivité de la décision : elle convient bien dans des problèmes de 
réglementation ou de normalisation. 

Il y a cependant quelques inconvénients : 

® Seule une partie de l’information est utilisée. 

® On aboutit parfois à des conclusions paradoxales : 

Ainsi si on rejette H 0 avec a = 5 %, avec les mêmes observations on la rejettera a fortiori 
si l’on avait choisi a = 20 %. Quel est alors le risque de la rejeter à tort : 5 ou 20 % ? Ce genre 
de questions perturbe à bon droit le praticien. 

Une pratique courante, utilisée notamment dans les logiciels, consiste alors à calculer le 
niveau de signification , appelé « /évalue » en anglais : c’est la probabilité de dépassement 
de la valeur observée de la variable de décision sous H (] . Ainsi dans l’exemple des faiseurs 
de pluie, le niveau de signification est P(X > 610.2 /H 0 ) = 0.38. 

Cela veut dire que pour tout a<0.38 on conserve H {) . Cette valeur élevée est donc en 
faveur de l’hypothèse nulle : les données la confortent. Inversement plus le niveau de signi¬ 
fication est faible, plus les données sont en faveur de l’hypothèse alternative et du rejet de H a . 
La démarche classique de Neyman-Pearson revient simplement à comparer le niveau de 
signification avec le risque a, mais on a ici une information plus précise. 

On aimerait pouvoir dire que H 0 est plus « probable » que H { . Il faut se garder de telles 
expressions, dénuées de sens dans un contexte non-bayésien. Par contre on peut parler de 
la vraisemblance de chacune des deux hypothèses (du moins quand elles sont simples) 
Lq et L |. 

Il faut noter ici que le test de Neyman-Pearson ne consiste pas à se prononcer en faveur 
de l’hypothèse la plus vraisemblable puisque la constante k a du rapport des vraisemblances 
n’est pas égale à 1 : il faut que H { soit k„ fois plus vraisemblable que H 0 , et k u est générale¬ 
ment plus grand que 1, ce qui traduit le fait que H () est privilégiée. Dans l’exemple des fai¬ 
seurs de pluie, il est facile de calculer k a qui vaut (cf. § 14.2.5) : 

exp^-^-^[(655 - 650) 2 - (655 - 600) 2 J^| = exp(1.35) = 3.857 

Pour rejeter H {) , il aurait fallu que H { soit près de 4 fois plus vraisemblable que H {] . 

Dans un contexte bayésien on peut parler de probabilités a posteriori (c’est à dire une 
fois connues les observations) si on s’est donné des probabilités a priori sur les états de la 
nature. 

Il faut donc ici se donner tt 0 ei tT| = 1 — ir () , probabilités a priori de H {) et H ] qui quantifient 
notre information préalable. 
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Si x désigne le vecteur des observations : 


P(H 0 /x) 


TTO L()(X) 


tt 0 L 0 (x) + TT|L,(x) 


On peut remplacer les vraisemblances par les densités de la variable de décision T , si T est 
une statistique exhaustive. 

La règle bayésienne consiste à choisir l'hypothèse la plus probable a posteriori , donc celle 
qui a une probabilité supérieure à 0.5. On vérifie alors que le test de Neyman-Pearson est en 
fait un test bayésien avec une probabilité a priori implicite que l’on peut calculer aisément 


en combinant P(Hjx) — 


(1 


•o)^i(x) 


ttoLi/x) -b (1 - tt 0 )L,(x) 


> 0.5 et 


L,(x) 

4(x) 


> k 


Ce qui donne : 


TTf) 


k 

1 + k 


Pour l'exemple des faiseurs de pluie, on trouve que -tt 0 = 0.79 ce qui montre bien encore 
une fois que H a est Favorisée. 

Lorsque les probabilités a priori sont connues, on définit le facteur de Bayes qui est le 
rapport des « odds ratios » des deux hypothèses : 

„ _ P(HJx)/P{H ] /x) 

B _ -- - 

" IT o/' 7r 1 


On peut interpréter B comme mesurant la variation du rapport des chances en faveur de 
H 0 contre //,, dûe à la prise en compte des données. 


Pour des hypothèses simples, on trouve facilement que B est égal au rapport des vrai- 
L q (x) 


semblances B 


L .(x 


-, ce qui réconcilie le point de vue bayésien et le point de vue classique, 


car B ne dépend pas des probabilités a priori. 


14.3 TESTS PORTANT SUR UN PARAMÈTRE 

14.3.1 Moyenne d’une loi LG(m, cr) 

14.3.1.1 cr connu 

Le test repose sur la variable de décision X. 

Ainsi pour H () : ni — ni 0 contre : m = /u, avec > ni 0 . la région critique est définie 

— — / cr 

par X > k. k se détermine en considérant que X suit une LG m : — 

\ Vu 

— . ( k — m 

P(X > k I >71 0 ) = P U >- — 

V c r/sn 

Pour un exemple on se reportera à l’introduction de ce chapitre. 
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14.3.1.2 a inconnu 


La variable de décision est la variable de Student : 


= 


X - ni 


Ainsi pour H Q : m = m {) contre H ] : in r m a la région critique est définie par : 
| r„_, | > k avec P( | , | > k) = a 

X-m OJ - 7 


i Exemple : H 0 : m = 30 contre 7/, : m > 30 
Un échantillon de 15 observations a donné .v = 37.2 et s = 6.2. 


On en déduit t 


37.2 - 30 


VÏ4 = 4.35. 


La valeur critique à a = 0.05 (test unilatéral) pour un T u est 1.761 : on rejette H [y s 

Remarque sur les tests de moyenne : Si la variable parente ne suit pas une loi de Gauss, 
les tests précédents s’appliquent encore dès que n est assez grand (n > 30 environ) en raison 
du théorème central-limite. 


14.3.2 Variance d’une loi de LG(m, o - ) 

14.3.2.1 m connu 


1 v-% 

La variable de décision est D = - 2 (Xj — m ) 3 . 

n i~\ 

Ainsi pour // n : o - = o- () contre H t : cr — cr { avec cr, > cro la région critique est définie par 

U , nD 

- 2j (Xj — ni)~ > k et K est déterminé en considérant que — suit un • 

«.■= i cr- ' 


P(D > k) = > ~ij = a 


14.3.2.2 m inconnu 

1 " — nS 2 

La variable de décision est S 2 = - ^ (Xj - X) 2 qui est telle que —— suit un \n-\- 

n i= I 

Ainsi pour H {) : cr = ct 0 contre H { : ct = cr, avec cr, > cr 0 la région critique est définie par 
S 2 > k et k est déterminé par : 


P(S 2 > k) = = « 
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m Exemple : H 0 : cr = 3 contre H { : cr > 3 

Avec 20 observations on a trouvé s — 3.5, soit s 2 = 12.25. 
La valeur critique d’un xJg pour a = 0.05 est 30.144 d’où : 


k = 


30.144 X 9 
20 


13.56 


La valeur constatée s 2 étant inférieure, on ne peut donc rejeter H ü au seuil choisi de 0.05. sa 


Remarque sur les tests de variance : Les tests précédents utilisant la loi du x 2 ne sont 
valables que dans le cas où X suit une loi de Gauss. 


14.3.3 Test de 8a valeur théorique p d’un pourcentage pour 
un grand échantillon 

On utilise la fréquence empirique F qui suit approximativement une loi : 

Hq : p = /?o contre H ] : p A p 0 . La région critique est : 

l^ 7 - Po I > 

m Exemple : Sur un échantillon de 200 individus d’une commune, 45 % sont favorables à 
l’implantation d’un centre commercial. Ceci contredit-il l’hypothèse qu’un habitant sur deux 
y est favorable ? 

\H Q :p - 0.5 
[//, : p =r 0.5 

avec a = 0.05 u — 1.96 d’où la région critique : 

|F - 0.5 1 > 1.96soit W = {|F - 0.5| > 0.07} 

Comme \ f — 0.50| = 0.05, on ne peut rejeter // 0 au seuil a = 0.05. 

Si n est trop petit pour que l'on puisse appliquer la loi de Laplace-Gauss, on utilisera 
l’abaque elliptique (table A.3 bis), m 


14.4 TESTS DE COMPARAISON D’ÉCHANTILLONS 

14.4.1 Tests de Fisher-Snedecor et de Student 
pour échantillons indépendants 

Étant donné deux échantillons de taille et n 2 , peut-on admettre qu’ils ont été prélevés 
dans une même population relativement à la variable étudiée, ces deux échantillons ayant été 
prélevés indépendamment l’un de l’autre ? 
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m Exemples : 

- Les résultats scolaires des filles et des garçons sont-ils comparables ? 

- Les demandes de deux produits A et S échantillonnées sur un an sont-elles com¬ 
parables ? m 

Mathématiquement le problème se formalise de la manière suivante : on observe sur le 
premier échantillon les réalisations d’une variable aléatoire X, de fonction de répartition 
F,(.v) et sur le deuxième échantillon les réalisations d’une variable aléatoire X 2 de fonction 
de répartition F 2 (.y) on veut tester : 

[tfo : W = W 
U : F,(.v) * F 2 (: x) 

Le choix de // n est dicté par des considérations pratiques car F, (.y) =£ F 2 (x) est trop vague 
pour obtenir une région critique. 

Dans la pratique on se contentera de vérifier l’égalité des espérances et des variances de 
X, et X : , en disposant de I, et x 2 et sj et s] moyennes et variances empiriques des deux 
échantillons si les lois de X, et X 2 sont gaussiennes. 

14.4.1.1 Cas de deux échantillons gaussiens X, e LG(m t , cr |) 
et X 2 e LG(m 2 , (J 2 ) 

Les hypothèses deviennent alors : 

H 0 : ni | — m 2 et cr, = rr 2 contre H\ : m , r m 2 et cr, cr 2 

Le test va consister à tester d’abord les variances et si elles ne sont pas significativement 
différentes à tester ensuite les espérances en admettant a, = or 2 . 

® Test des variances de Fisher-Snedecor 

En appliquant les résultats de la théorie de l’échantillonnage : 

ai [5 j jj 2 Ss , 

S ^ X;/, - I 1 ^ Xn- - 1 
°7 cr 2 

Dans l’hypothèse H 0 : cr, = cr 2 et l’on a : 



»,Sï 

fil, — 1 ; /i 2 — 1 

_ «1 “ 1 

Il 2 S 2 


Il 2 ~ 1 


On peut interpréter F comme le rapport des deux estimateurs de a\ et en respectivement. 
Si cr, = cr 2 , ce rapport ne doit pas différer significativement de 1. F sera la variable de déci¬ 
sion. En pratique on met toujours au numérateur la plus grande des deux quantités : 

aj, Sy lliSl 

jz, — 1 n 2 — 1 

et la région critique est de la forme F > k avec k> 1. 
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Si les deux échantillons ont même taille /?, = n 2 = n, le calcul se simplifie et : 

F = ?1 

M— 1,M~l ç 1 

»j 2 

Si le test de Fisher-Snedecor aboutit à la conclusion cr, = cr 2 , on passe au test des 
espérances. 


Exemple : 


25, n 2 = 13, sj = 0.05, s] = 0.07, a = 0.05 
13 X 0.07 25 X 0.09 


12 


Il faut permuter les indices 1 et 2 car 

La région critique est F > 2.18. 

On accepte l’hypothèse o-, = cr 2 . 

« Test des espérances de Student 

Supposons désormais cr, = cr 2 = cr. On a : 

r«i5î 

— « X«,-t 


A | e LG| m |, ,— 

V II j 


cr 


et 


> 


24 


\n 2 S 2 t 
~ G XL-i 


X 2 e LG[ in -p= 
n 


d'où 


et 


n i Si 4- n -iS i 


O" 


G Xit, + it,-2 


X, — X 2 e LGl ni , — m 2 , a A/ — 4- — 


V 

a étant inconnu on utilise la loi de Student. 
Par définition de la variable de Student : 


n i n 


X, — X 2 — (ni | — m 2 ) 


cr V— + — 

n i n 2 


-2 


«iS? 4- n 2 Sl 
cr(/i | 4- n 2 ~ 2) 


Ce qui se simplifie en éliminant cr : 


T , 

A If,-r 11-»“2 


( X| - X 2 ) - (ni | - ;» 2 ) 

(M|5[ 4- /i n 5?)(- h — 

\n, n 


■.^n, + n-, — 2 


Dans l'hypothèse H {) , ni\ = m 2 et la région critique est de la forme : |7| > k. 




342 


74raLes tests statistiques 


On aura vu au passage que seule l'hypothèse H n d’égalité des moyennes et des variances 
permet d’obtenir des régions critiques, car on élimine précisément les valeurs communes de 
ces moyennes et variances. 

De plus l’ordre : test de variances, puis test de moyennes, semble indispensable, car le test 
de Student suppose explicitement CT| = ct 2 . 


14.4.1.2 Comparaison de moyennes en cas de variances inégales 

Lorsque les effectifs des deux échantillons sont élevés (supérieurs chacun à 20). la for¬ 
mule précédente reste encore approximativement valable. 

Pour de petits échantillons, l’approximation d’Aspin-Welch est souvent utilisée dans les 
logiciels : elle consiste à remplacer le degré de liberté n, + n 2 — 2, par une valeur inférieure 
m obtenue par les formules suivantes : 


1 //1 — 1 

ni =-;-- avec c =--;— 

c- (1 - c) 2 S y 5? 

n i — 1 n -, — 1 zi. — 1 il-, — l 


14.4.1.3 Cas d’échantillons non gaussiens 

nS 2 

Le test de variance F n’est plus valable car —- ne suit pas une loi de x", mais on a le 

cm 

résultat suivant qui permet de tester 77i, = //i 2 . 

Pour zi|, 72 2 assez grand (quelques dizaines d’observations) on peut quand même tester 
les moyennes // 2 , et m 2 en appliquant la formule de Student que cr, soit différent ou non 
de cr 2 - 

On dit que le test de Student est « robuste » car il résiste bien à un changement de la loi 
de X , et X 2 . 


14.4.2 Tests non paramétriques de comparaison 
de deux échantiSlons indépendants 

14.4.2.1 Test de Smirnov 

Ce test est analogue au test de Kolmogorov et repose sur le résultat suivant. 

Soit F*(x) et F;fXr) les fonctions de répartition empiriques de deux échantillons de taille 
7i, et 7? 2 issues d’une même loi, de fonction de répartition F(x) ; alors : 
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D'où le test : soit à tester T hypothèse H 0 F(x) = G(x), contre H { F(x) =f G( x), en disposant 
de deux échantillons de taille n, et n 2 de fonctions de répartition empiriques F* (.y) et G*(.y), 
on forme la différence des deux et on en prend le sup et on rejette H ü si sup | F*(.y) — G*(x) \ 
est trop grand. 


14.4.2.2 Test de Wilcoxon-Mann-Whitney 

Soit (a'|, x 2 , . . .y„) et ( V|, )' 2 , . . y,„) les deux échantillons. Ce test repose sur l’idée que 

si l'on mélange les deux séries de valeurs et qu'on ordonne le tout par valeurs croissantes on 
doit obtenir un mélange homogène. 

Pour cela les deux suites étant réordonnées, on compte le nombre total de couples (.y,, y,) 
où Xj a un rang plus grand que y, (ou bien tels que .y,- > y ( si X et Y sont quantitatives). 

Soit U ce nombre (statistique de Mann-Whitney). Il est facile de voir que U varie de 0 à 
nm ; si U — 0 on a la situation suivante (mélange en deux phases) : 


A- h .Y 2 , y,, y 2 , ...,y m 

de même si U = nm : y,, v 2 ,..y„„ .y h x 2 ,..., a„ 

D'autre part si les deux distributions sont issues de la même population : 

iwt(n + m + 1) 


E(U) = 


et 


V(U) 


12 


et asymptotiquement U est gaussien, l’approximation étant excellente dès que n et ni sont 
supérieurs ou égaux à 8. Dans tous les cas on peut calculer la loi exacte de U. 


Le test consistera donc ù rejeter H ü : F(x) — G(.v) si 



> k . 


Un autre mode de calcul plus rapide dans certain cas consiste à calculer la somme des 
rangs des individus de l’un des deux groupes (le premier par exemple). 


Soit W v cette somme appelée statistique de Wilcoxon. Il est facile de montrer que 
n(n + 1) 

W x = nm H--- U sous l’hypothèse nulle : 


n(ii + m + 1 ) 

E(W X ) = - ---- 

nm(n + m + 1) 
V(W X ) = - -- 


La région critique est alors définie si n et m > 8 par : 

n(n + m + 1) 


W v - 


12 


> u a /i 


nm(n + m + 1) 
12 
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b Exemple : On veut comparer les performances de deux groupes d’élèves à des tests 
d’habileté manuelle. 

On choisit aléatoirement S individus du premier groupe et 10 du deuxième. Les perfor¬ 
mances en minutes sont les suivantes : 

Groupe I : 22 31 14 19 24 28 27 28 

Groupe 2: 25 13 20 11 23 16 21 18 17 26 

On réordonne les 18 observations par ordre croissant. Les résultats du premier groupe sont 
soulignés : 

Observations : 11 13 j4 16 17 18 J9 20 21 22 23 24 25 26 27 28 28 3! 

Rangs : I 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 

La somme des rangs des individus du premier groupe est : 

W x = 3 + 7 + 10 + 12 + 15 + 16 + 17 + 18 = 98 

Si Hq était vraie : 


8(8 + 10 + 1 ) 

E(W X ) = ----- = 76 V(W X ) = 


8 X 10(8 + 10+1) 
12 


126.7 = (1L25) 2 


Comme 


98 - 76 
11.25 


1.96, on peut rejeter H 0 avec a = 0.10 et conclure à une plus grande 


rapidité des élèves du groupe 2 . 


Remarque : 


.V, =24.13 

et 

x 2 = 19 

s r - 27.36 

et 

s 2 = 22 


Le test de Fisher-Snedecor de comparaison des variances donne : 


27.36 X 8 


7 

22 X 10 
9 


1.28 


ce qui montre que oy n’est pas significativement différent de os (^ 0 . 05 (7 ; 9) 
Le test de Student de différence des moyennes donne : 

24.13 - 19 r— 

y 16 = 2.06 


3.29). 


_ 1 _ I 
T 0 8 


(10 X 22 + 8 X 27.36) 


ce qui est supérieur au seuil à 0.10 qui vaut 1.745. Le test de Student conduit donc à la même 
conclusion que le test de Wilcoxon. Cependant ici, rien ne justifiant l’hypothèse de distribu¬ 
tions gaussiennes et vu la petite taille des échantillons, seul le test de Wilcoxon est d’usage 
légitime. 
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14.4.3 Test non paramétrique de comparaison 
de plusieurs échantillons décrits 
par une variable qualitative : Se test du x z 

Les données se présentent sous la forme du tableau 14.2 : 


Tableau 14.2 


Échantillon 1 

Modalité 

1 

Modalité 

2 


Modalité 

r 

Total 

11 n 

/11 2 


>hr 

«i. 

Échantillon 2 

Ü2 1 

/JoT 


n 2r 

n 2 







Échantillon k 

’k\ 

n kl 


’hr 

’k. 

Total 

>h\ 

n 2 


>kr 

n 


où iijj est le nombre des individus de l'échantillon possédant la modalité j de la variable : 

r 

n i. = 2 n ij ~ effectif de l’échantillon / ; 

j=i 

k 

n.! = = nombre total des individus possédant j ; 

i=i 


n = SS' 1 ;/ = 

i 7 > J 

Il s’agit de tester H 0 : « les échantillons proviennent de la même population » contre H\ : 
« les échantillons sont significativement différents ». 

Dans l’hypothèse H {) on peut parler de probabilités /?,, p 2 , . .., p r de posséder les modali¬ 
tés 1, 2,. . r. Il s’agit alors de comparer les effectifs constatés ;i,y aux effectifs espérés n L pj, 
qui ne doivent pas en différer beaucoup ; on forme alors : 


rfs = is ( ''" " lPiÿ 


/=] 7=1 


>h. Pi 


Dans l’hypothèse H 0 , cil est une réalisation d’une variable Dl suivant un x 1 dont nous 
allons chercher le nombre de degrés de liberté. 

cil porte sur kr termes, mais ces kr termes sont liés par k relations qui indiquent que les 
sommes de lignes sont constantes T/* L pj = u,_ 

j 7 

Donc Dl est un x± r -k- 
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Cependant en pratique les p,, p 2> . . ., p r sont rarement connus, et on les estime par 

Pi = —. ce qui fait r - 1 estimations indépendantes (en effet pour estimer les r probabilités 
n 

r 

on n'a besoin que de r — 1 relations car 2 Pj ~ 1 )• 

j= i 

D'où une nouvelle mesure : 


k r y-y n 

= 2 2 --- 

/— I j— 1 11 i. n .j 


Vi=i 7 =i ».j ) 


alors D 2 est un : xta-<r-i> = Xu-i )<r-n si H Q est vraie. 

, n a 

On peut remarquer que si l’on utilise la fréquence /• = — : 


d 1 = ”2X 


u\, -fi.f,) 2 


Le test consistera donc à rejeter H () si d 1 constaté est trop grand, comme pour un test 
habituel du x 2 - 

S 4.4.4 Test de comparaison de deux pourcentages 
(grands échantillons) 

Dans deux échantillons de grandes tailles n, et n 2 , on relève les pourcentages/! et f 2 
d’individus présentant un certain caractère. Soit p ] et p 2 les probabilités correspondantes : 
il s’agit de savoir si/, et f 2 sont significativement différents ou non, donc de tester : 

: P\ ~ p 2 ~ P 
ta -P\ * P 2 

Si H {) est vraie,/, et f 2 sont des réalisations indépendantes de deux variables F, et F 2 sui¬ 
vant les lois : 


LG p ; 


P(i ~ P) 


et LG p ; 


P( 1 ~ P) 


donc : 


F, - F,LG 0;Vp(l “ p) V~~ + — 

V >71, /l-, 


On rejettera H (h si, avec a = 0.05 par exemple 


/il > 1.96V/X1 - P) y- + - 

un 11 -, 


Lorsque p n’est pas connu on le remplace par son estimation p 


n , /, + n i f 2 


n « + li¬ 


as Exemple : 

sur 96 pièces venant d’un fournisseur A, 12 sont défectueuses ; 
- sur 55 pièces venant d’un fournisseur B, 15 sont défectueuses. 
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Les pourcentages de pièces défectueuses sont-ils significativement différents ? 


/, = 0.13 


fi = 0-27 
,/i ~fi 


P = 


12 + 15 
96 + 55 

= -2.28 


P( 1 " P) 


ii\ n 2 


0.18 


On peut donc rejeter l’hypothèse H n : /?, = p 2 et conclure que p 2 > /?[. 

Le même test aurait pu être réalisé de manière équivalente en utilisant le test du x 2 de 
comparaison d’échantillons. Le calcul est d’ailleurs particulièrement simple dans le cas du 
tableau à quatre cases (voir chapitre 6 § 6.5.2.2) : 


Fournisseur A 
Fournisseur B 


Défectueux Non défectueux 


12 

84 

15 

40 


27 124 


96 

55 

151 


, _ 151(12 X 40 - 15 X 84) 2 
27 X 124 X 96 X 55 


5.20 


Avec un degré de liberté la valeur critique du x 2 pour a = 0.05 est 3.84 ; on rejette donc H 0 . 

On aura remarqué que 5.20 = (2.28) 2 car (la démonstration est laissée au soin du lecteur) 
on a exactement : 


cl 2 


, ./ 


fi fi 


V 


, 1 1 

p{ 1 - p) — + 


n l)i 


14.4.5 Comparaison des movennes de deux échantillons 
gaussiens indépendants à p dimensions 
de même matrice de variance 

Considérons deux échantillons de /?, et ru observations issus respectivement de deux lois 
A/ ; ,(|JL| ; S) et N p { (Jt 2 ; 2). On cherche alors à tester : 


H q : m — p. 2 

|x 2 


On notera g h g 2 , V h V 2 , les centres de gravité et matrices de variance des deux 

n ,Vj + n ->\ 2 

échantillons, et on posera W =-;—=— la matrice de variance intragroupe 


n i + n 2 

11 , +)!*,— 


77 , + n 2 

W est un estimateur sans biais de 2 I. 
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14.4.5.1 Test de Hotelling 


;j,V| + n : V 2 est une matrice de Wishart W.,{n x + n 2 — 2 ; 2) et g, — g 2 une loi 


N p y) ; 2j^-f —- jj s ' £ st vraie. 

On en déduit (chapitre 4, paragr. 4.5) : 


n . n->(», + //-> — 2) . . , T 

- , o -"(Si “ g 2 )'W-'(g, - g 2 ) = Tj (n, 4- n 2 - 2) 

(/ï | + /i 2 )- 

si /¥ () est vraie d’où le test. 

En pratique on utilisera la relation entre Tj, et F qui donne : 


(n [ + n 2 — p — 1 )/i ]/?2 
P0h + n 2 Ÿ 


(gi “ g 2 )'W ‘(g, - g:) = F(p ; #t | + n 2 — p — 1) 


On vérifiera que pour p — 1 on retrouve le carré de la variable de Student du test décrit 
au paragraphe 14.5.1 de ce chapitre. 

14.4.5.2 Distance de Mahalanobis 

Le test précédent est plus couramment présenté sous la forme suivante. 

Soit A- = (|x, - |a 2 )'2~V, “ fx 2 ) le carré de la distance de Mahalanobis entre jx, et fjL 2 . 
Le test revient donc à poser : 


«b : Aj = 0 
H, : Aj > 0 


La distance de Mahalanobis estimée D , est telle que : 


= ’ll + n ~ -( g( - g 2 )'W '(g, - g 2 ) 

n i -r n -< 


obtenue en remplaçant 2 par son estimation sans biais. Remarquons que ceci ne revient pas 
à estimer sans biais 2~' et que : 


E(Dj) = -;!-=-=— A j+p -= > A j 

ri\ + n 2 ~ p — 1 \ n 2 / 


Lorsque A“ = 0, —■■■ 2 Dl suit un Tz(n , +/!-, — 2) d’où le résultat : 
/i, + n 2 


«1 «2 ("l + »2 ~ P ~ 0 ^ 

7—T-7—7-T- TT D p = F{p ; + 1U - ~ P ~ ]) 

(n, + n 2 ) pin , + n 2 — 2) 


Cette expression est couramment appliquée en analyse discriminante (voir chapitre 18). 
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14.4.6 Comparaison de moyennes d’échantillons appariés 

Un même échantillon d’individus est soumis à deux mesures successives d’une « même » 
variable. 

14.4.6.1 Le cas gaussien 
m Exemples : 

- 15 copies sont soumises à une double correction ; 

- passage du même test d’aptitude à deux instants différents (problème de l’apprentissage). 

On veut tester l’hypothèse que les deux séries de valeurs sont semblables. Soit À', la 
variable correspondant à la première série et X 2 l’autre. En fait on se contente de tester 
l’hypothèse E{X } ) = E(X 2 ) en posant le modèle suivant : 

X, - X 2 LG(m | — m 2 , <t) 

(ce qui sous-entend que X, et X 2 sont séparément gaussiens). 

Le test de H {) : m [ = m 2 contre 7/, : m, =4 m 2 consiste à former les différences a;-, — x i2 = ri,- 
et à faire un test de Student sur la moyenne des d { car cr est en général inconnu : 

d ! -- X, - X, r -- 

G-i = — y» ~ 1 =- ~Vi ~ 1 

s ii s ti 

On rejettera H a si \t\ > k. m 

N.B. : La différence avec le test de Student d'égalité de deux moyennes étudié au paragra¬ 
phe 14.1.1 provient du fait que les variables X ( et X 2 ne peuvent ici être supposées indépen¬ 
dantes : la variance de leur différence ne peut être estimée par la somme des variances. 

os Exemple : Considérons deux séries de mesures effectuées sur les mêmes individus à 
deux instants différents 


Individu 

Xi 

X 2 

D = X, - X 2 

1 

86 

66 

20 

2 

92 

76 

16 

3 

75 

63 

12 

4 

84 

62 

22 

5 

66 

74 

-8 

6 

75 

70 

5 

7 

97 

86 

11 

8 

67 

69 

_2 

9 

99 

81 

18 

10 

68 

92 

_Z*_ 


Les moyennes ont-elles varié ? 

7 

On trouve d — 1 s* = 14.56 t =- —, — 1.52 

14.56/VTÔ 
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On ne peut donc rejeter l’hypothèse que les deux moyennes sont égales car la valeur critique 
d’un test bilatéral à 5 % vaut 2.269 pour un T g . ^ 

Le test précédent suppose la normalité des deux variables. Si ce n’est pas le cas, ou si cette 
hypothèse ne peut être prouvée, il peut être plus prudent, mais avec une puissance moindre, 
d’effectuer un test non paramétrique. 

14.4.6.2 Test des signes 

On compte le nombre K de différences positives. Sous l’hypothèse nulle d’absence de 
différence entre moyennes, il y a une chance sur deux qu’une différence soit positive ou 
négative ; donc K suit une loi binomiale Ôft(10 ; 0.5). Dans l’exemple il y a 7 différences 
positives. Or P{K < 8) = 0.9453. Avec un test bilatéral à 5 %, la conclusion reste alors la même. 

14.4.6.3 Le test de Wilcoxon pour données appariées 


Il est bien plus puissant que le test des signes et doit lui être préféré. Il teste en réalité une 
hypothèse alternative de distribution décalée. 

On procède comme suit : on classe par ordre de valeurs absolues croissantes les différences : 


Rang 

D 

1 

-24 

2 

22 

3 

20 

4 

18 

5 

16 

6 

12 

7 

11 

8 

-8 

9 

5 

10 

-2 


On calcule ensuite la somme des rangs des différences positives soit ici : 

W+= 2 + 34-4 + 5 + 6 + 7 + 9 = 36 

Sous l'hypothèse nulle, on trouve aisément l’espérance et la variance de W+ 
" \Z. ■= 1 si X u - X v > 0 

..cr-, il/ _ n -7 ' - W -i __._ . _ 


En effet = Y R,Z, où j ' en ne tenant pas compte des 

/T, [Z/ = 0 sinon 

ex-aequo. Les /?,- sont les rangs de toutes les différences et sont donc une permutation 
des entiers de 1 à n. 

Les Zj sont des variables de Bernoulli indépendantes : 

E(Z,) = i V(Z,)=j 


W = 2 «,z ( 
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conditionnellement aux rangs : 


FAWjRt 


2r,E(Zd 

i=l 



1 n(n + 1) 

2 2 


n(n + 1) 
4 


V(l VjR) = V(Z,) 

i— 1 




1 n(» + l)(2n + 1) _ n(n + l)(2/i + 1) 
4 6 24 


Les rangs ayant disparus, l’espérance et la variance conditionnelle sont l’espérance et la 
variance totale. 

On peut montrer que VVL peut être approximé par une loi normale à partir de n — 10. 

On comparera donc la valeur trouvée 36 à une loi normale d’espérance 27.5 et de variance 
96.25, ce qui donne une valeur centrée réduite de 0.87. On ne rejette pas l'hypothèse nulle. 


14.4.7 Comparaison de variances d’échantiHons appariés 

Les variables n’étant pas indépendantes, le test de Fisher-Snedecor ne peut être appliqué. 
On utilisera la propriété suivante : 

cov(X , + X 2 ; X, - X 2 ) = V(Xi) - V(X 2 ) 

Tester Légalité des variances revient donc à tester si le coefficient de corrélation linéaire 
entre la somme et la différence des deux variables est nul. 

Dans l’exemple précédent on trouve r = 0.224 ce qui ne permet pas de rejeter l’hypothèse 
d’égalité des variances car le seuil à 5 % bilatéral pour 10 observations est 0.63 (cf. table A.9). 

Les écart-types corrigés étaient respectivement 12.45 et 9.95 

14.4.8 Le test de Mc Nemar de comparaison 

de deux pourcentages pour un même échantillon 

On a vu en 14.4.4 comment comparer des pourcentages sur deux échantillons indépen¬ 
dants. Qu’en est-il lorsqu’il s’agit des mêmes individus ? Par exemple, on interroge à deux 
reprises, après une action, 600 clients d’une société pour connaître leur taux de satisfaction. 

On commettrait une grave erreur en appliquant les formules des échantillons indépendants : 
il faut ici connaître pour chaque individu son état aux deux enquêtes, que l'on peut résumer par 
le tableau de contingence 2X2 croisant les effectifs des deux variables. 

Prenons l’exemple suivant : 


—-—— 

Satisfaits 

Non satisfaits 

Satisfaits 

200 

50 

Non satisfaits 

80 

270 


La proportion de satisfaits est passée de 41.7 % à 46.7 %. S’il s’agissait de deux échan¬ 
tillons indépendants de 600 individus, cette différence ne serait pas jugée significative. 
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Mais pour tester la significativité de cette différence, il faut en réalité comparer 
les effectifs des individus ayant changé d'avis. 

En effet, avec des notations classiques, l’hypothèse H a est p { = p u . Comme p u = p n + p 
et p A = p u 4- p 2 1 H n revient à tester p ]2 = p 2 i 


7 \ — -— ~—Tl 

Satisfaits 

Satisfaits 

Pu 

Non satisfaits 

P12 

Pi. 

Non satisfaits 

P21 

P22 

P 2 . 


P.i 

P.2 



On effectue alors un classique test du khi-deux : sous l’hypothèse nulle /; )2 = p 2 \ est estimé 
par («, 2 -I- ;j 2 |)/2. 

La statistique de test est donc : 


«12 + «21V , l 
”12 9 J + [ U 2\ 


11 n + Uti 


Zip + JZ11V 


Un calcul facile montre qu’elle est égale à : 

(/Z p , -, 

—=- 1 —. On comparera cette quantité a un XL ou sa racine carree à une vanable 

”12 + ,l 2 l 

normale centrée réduite. 

r • («p - n- h) 80-50 , . 

Ici on trouve .=.~ =r = . = = 2.63. On conclue a une augmentation sigmrica- 

vzz 12 + zz 2 ] v80 + 50 
tive de la satisfaction. 


14.5 L’ANALYSE DE VARIANCE 

L’analyse de variance recouvre un ensemble de technique de tests et d’estimation desti¬ 
nés à apprécier l’effet de variables qualitatives sur une variable numérique et revient dans le 
cas simple à comparer plusieurs moyennes d’échantillons gaussiens. 

On utilisera ici un vocabulaire particulier : les variables qualitatives susceptibles d’influer sur 
la distribution de la variable numérique observée sont appelées « facteurs de variabilité » 
et leurs modalités « niveaux ». Lorsqu’il y a plusieurs facteurs, une combinaison de niveaux est 
un « traitement » (voir chapitre 21 ). 

Le domaine étant très vaste on se contentera ici d’une brève présentation du modèle à effets 
Fixes à un et deux facteurs (des compléments seront donnés au chapitre 17 sur le modèle 
linéaire général). 
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14.5.1 Analyse de variance à un facteur 

j4.5.1.1 Les données et le modèle 

On dispose de k échantillons de tailles respectives zij, n 2 , . . n k correspondant chacun à 

un niveau différent d’un facteur A On pose n = 2 n i et on dresse le tableau 14.3. 

i=i 

On suppose que le facteur A influe uniquement sur les moyennes des distributions et non 
sur leur variance. Il s’agit donc d’un test de confusion des k moyennes j,, x 2 .. . x k . 


Tableau 14.3 


Facteur 


a 2 


A, 


Ak 


■V ! 

x l 2 


-v/ 


4 


i 

T 


-J 




XT 

Vî 


vr 




Xj' 1 

A'v 




xï 

Moyennes 

*1 

X 2 


■v, 


Xk 


Si on considère chaque échantillon comme issu d’une variable aléatoire X) suivant une loi 
LG(//I, ; cr), le problème est donc de tester : 

\H (] : = m 2 ~ ... = m k = m 

1 //, : 3 ijnii ± m i 
On peut également poser : 

xj = ni' + ej où Ej LG(0 ; cr) 

ou encore xj = fx + a,. + Ej où fx représente une valeur moyenne et a,- l’effet du niveau i du 
facteur. 

Si H 0 est rejetée le problème se posera donc d’estimer ni i (ou fx et les a,). 

14.5.1.2 Le test 

_ _ j k II, 

Si X est la moyenne totale X = - 2 X Xj et en remarquant que : 

11 i=i j= i 

x\ - x = xi - ^ + Xj - x 

il vient facilement : 


ZZ(x{ - *) 2 = - SEW - x ,-) 3 + - - *) 2 


formule qui n’est autre que celle de la variance totale décomposée en moyenne des varian¬ 
ces et variance des moyennes. 
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Si on pose : 


S- = -SEW - X Ÿ. Sj = - 2 nfXi ~ XŸ 

II I i II l-l 


et : 


s]( = -llw - X,) 2 


on a donc S 2 — + Sj ( formule « d’analyse de variance ». 

S;, représente la variance due au facteur. Si la variance résiduelle. 


1 * , i _ 

Si on écrit S 2 R = - 2 »/ 2 avec S~ = — ^(X] — Xf- en introduisant les dispersions de 


i i -1 


chaque échantillon, on trouve que ~~ est une variable de x 2 a 11 ~ k degrés de liberté car 


, - , . -, .nS% ÂiijS 2 

est une variable x»-i et—— = Y —~ 
o-' i=1 cr- 


Dans l’hypothèse H 0 et dans celle-ci seulement, les X, sont des variables de même loi, 

dans ce cas suit un xü-i et —^ un \l-\ car S 2 est alors la variance d’un «-échantillon 
ct- cr- _ 

d’une LG(;n, ct) et Sl est analogue à la variance du ^-échantillon des moyennes X,- pondérées 

par les n,-. 


L’équation d’analyse de variance n’est autre que la formule du théorème de Cochran, ce 
qui entraîne que Sj t et S\ sont des variables aléatoires indépendantes, si H 0 est vraie ; on a 
en effet : 


x»-i = xi- 1 + XÜ-a 


Donc si H {) est vraie 


Si/k - I 


Si/n 


F(k - I ; n - k) 


S 2 /k ~ 1 

d’où le test : on forme le rapport --, S’il est supérieur à la valeur critique d’une vari- 


Sl/n - k' 

able de Fisher-Snedecor on conclut à une infuence significative du facteur A. 
Le carré moyen résiduel est alors un estimateur sans biais de cr 2 . 


n Exemple : Reprenons l’exemple étudié aux chapitres 5 et 6 : les variations du taux 
de taxe d’habitation de 100 villes françaises et étudions s’il existe des différences entre 
zones géographiques. La première étape avait été de comparer les diagrammes en boîte 
qui montraient des différences essentiellement entre le Nord et l’Ile-de-France et les aut¬ 
res zones. 
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Le tableau suivant donne les moyennes et variances corrigées par zone : 


Zone Géographique 

Effectif 

Moyenne 

Variance 

Centre 

13 

18.1154 

3.63619 

Est 

10 

17.662 

4.38986 

Ile-de-France 

26 

11.7646 

15.0492 

Mord 

9 

25.9511 

50.4071 

Ouest: 

14 

18.8964 

9.59955 

Sud-Est 

18 

19.7694 

8.63498 

Sud-Ouest 

10 

20.511 

20.6971 

Total 

100 

17.7707 

30.5765 


Le tableau d’analyse de la variance est alors : 



Analyse de var 

iance 



Source 

Somme des carrés 

Ddl 

Carré moyen 

F 

Proba. 

Inter-groupes 

Intra-groupes 

1706.58 

1320.49 

6 

93 

284.43 

14.1988 

20.03 

0.0000 

Total (Corr.) 

3027.07 

99 





On rejette donc l’hypothèse d’égalité des 7 moyennes car la valeur de la statistique de test 
F est très élevée et la probabilité qu'un F f) . M dépasse 20 est pratiquement nulle. » 

14.5.1.3 L’estimation des effets 

Il est clair que les ;;î ( - sont estimables par les moyennes .v, mais que les a ( - ne le sont pas: 
il y a indétermination puisque /;/,■ = |x 4- oq peut s’obtenir d’une infinité de manières. 

k 

On pose généralement la contrainte suivante d’effet moyen nul : ^ n,a, = 0 d’où : 

/-i 

= x 

= -U “ À' 

14.5.1.4 Comparaisons multiples de moyennes 

Le rejet de H () ne signifie pas que tous les m-, sont différents entre eux, et on cherche souvent à 
tester l’égalité à 0 des différences /»,- — nij (appelées « contrastes »). Diverses méthodes existent. 

Un résultat dû à Scheffé montre que pour tout contraste l’événement : 



a lieu avec une probabilité 1 - a donnée par : 

P ( F — s ^t) 


= l — a 
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où tf 2 est le carré moyen résiduel. On rejette H {) s’il existe au moins un contraste significati- < 
vement différent de 0. ! 

On peut donc tester simultanément tous les contrastes de la façon suivante : on calcule < 
tout d’abord: 


S = \(k - 1) FJk - 1 ;n-k) 


1 l 


et on vérifie ensuite si Lv,- — a\ > Sà\ -1-: si oui : m, r= m-, 

'"i n j 


On prendra garde toutefois que les comparaisons par paires ne sont pas transitives. 

On pourrait ainsi accepter m, = m 2 , "h = m 4 , mais pas m, = ;n 4 ! 

fl est souvent plus simple de représenter graphiquement les intervalles de confiance 


déduits de la méthode de Scheffé. 



14.5.1.5 Test de comparaison de k variances 

L’hypothèse d’égalité des variances pour chaque niveau joue un rôle important en analyse 
de variance mais n’est que rarement testée : en effet les tests disponibles sont peu fiables et il 
vaut mieux se contenter de procédures empiriques. 

Citons cependant le test de Bartlett : 

Soient Sj' 2 , S* 2 ,. . Sf 2 les variances corrigées des k échantillons, si cr, = a 2 = . . . cr^. 
alors la quantité : 

%, - DS? 2 

(n - k) lnl—- - - 

\ n — k 

suit approximativement une loi du x 2 à k — l degrés de liberté. 


- i>; - 1) ln(Sf) 
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14.5.2 Analyse de variance à deux facteurs 
14.5.2.1 Le modèle 

On notera p et q les nombres de niveaux de deux facteurs A et B. 

Pour chaque couple /, / de niveaux (traitement) on aura n,j observations de la variable X. 
On dit que le modèle est complet si //,-, > 0 pour tout traitement, à répétition si n u > 1, 
équilibré si n,j - r. 

On limitera cette étude au cas équilibré. Les données recueillies sont donc, pour un 
traitement (i,j), x ijk avec k = 1,2,...,/: 

On supposera que x ijk soit une loi LG(///ÿ ; m) donc que x ijk = ///,-,■ + e ijk où E ijk LG(0 ; ct). 
On écrit alors : 


mij = p, + a, + (3 } + 


p, est l’effet moyen ; 

a, l’effet principal du niveau i de A ; 

l’effet principal du niveau / de B ; 
y jj l’effet d’interaction. 

La présence d’un terme d’interaction équivaut à la non-additivité des effets principaux. 


On posera : 


I r <1 r 
— _ ^ y y y . 

■v... 2-t 2 j 2j ijk 

pqr / =1 J= \ *=, 


X ‘j ■ 

1 t=l 
I '/ r 

■v,-.. - — È 2- v # 

I /> r 

• v v. = - S É-Vÿ* 

P 7 /=l Jk=l 


On a alors : x jjk — x.. = (x i-m — J J + (x_y_ — x..) 

+ Gjj. ~ -v.y.) - G,,. + ÏJ 
+ CVÿ*. - x, 7 .) 

les differents termes de cette somme correspondant respectivement aux effets principaux, à 
l’interaction et à une fluctuation aléatoire. 


14.5.2.2 L’équation d’analyse de variance et le test 

On vérifie que pour le modèle équilibré on a : 

- .v...) 2 = si + Si + Sh + Si 

i j * 
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avec : S ; 4 = - -v...) 2 i 

i 

Si = P r ü(S.j. - t J 2 

j 

S AH = rY2(îij. - x.j. - *L. + * J 2 

i j 

si = YÎS.dm ~ 

i j k 

donc que les sommes des carrés s’ajoutent : il y a orthogonalité pour le modèle équilibré. 

72 j II ; 

Remarque : Les modèles orthogonaux sont tels que : n ;j = — — . 

n 

Comme en analyse de variance à un facteur, si l’hypothèse H 0 m V} = 0 V// est vraie, les 
différentes sommes de carrés suivent à cr près des lois du x 2 indépendantes. On peut donc 
tester l’existence des effets principaux, et de l’interaction en comparant S}, Sj,, Sj vt à Sj { . On 
présente usuellement les résultats sous la forme du tableau 14.4 : 


Tableau 14.4 


Source 
de variation 

Somme 
de carrés 

Degré de liberté 
~ (ddl) 

Carré moyen 

F 

A 

s 2 ,i 

P - 1 

s\Hp - i) 

sl/p -1 

S\/pq(r~ 1) 

B 

si 

q~ I 

S-n/(q ~ 1) 

Sl/q - I 
S\/pq{r - I) 

Interaction AB 

sh 

(p - 1 )(q ~ 1) 

sh, 

S\„Hp - 1)(9 - I) 

(p - i)(<? - O 

Sl/pq(y ~ 1) 

Résiduelle R 

si 

pq(r- l) 

Sl/pq(r~ 1) 


Totale 

s 2 

pqr - 1 




14.5.2.3 L’estimation des effets 


En posant : 2“/ = Efy = 5/7,y = 5 11 y = 0 

' j ‘ J 

on peut estimer les a h (B J; y tj on trouve alors : 


ôq = -v,.. - -v... 
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14.5.2.4 Le cas du plan sans répétition 

Le modèle complet avec interaction ne peut être testé et estimé que si et seulement si il y a 
répétitions car le degré de liberté de Sj { est pq(r — 1) donc r doit être strictement supérieur à 1. 

Si r = 1 on doit se contenter du modèle purement additif sans interaction : 

\xij = a,- + fy 

L’équation d’analyse de variance s’écrit alors : 

- A A = s\ + si + si 

i j 

avec : Sj = - x ) 2 

i=i 

si = p'kcx.i - x.y- 
./=! 

Sj; = ~ *i. ~ X.j + X.f 

' J 

On compare donc 5;, et Si au terme d’interaction pris pour terme résiduel ce qui empêche 
de tester l’interaction. 

14.6 TESTS ET PROCÉDURES D’AJUSTEMENT 

Ces tests ont pour but de vérifier qu’un échantillon provient ou non d’une variable aléatoire 
de distribution connue F 0 (.v). 

Soit F(x) la Fonction de répartition de la variable échantillonnée, il s’agit donc de tester 
H 0 : F(a) = F () (a-) contre H } : F( x) ± F 0 ( x). 

Avant de présenter les tests statistiques les plus courants (test du x 2 , de Kolmogorov, de 
Cramer-Von Mises) il convient de présenter brièvement les procédures empiriques usuelles 
qui sont une étape indispensable et permettent de s’orienter vers une distribution adaptée aux 
données. 

14.6.1 Les méthodes empiriques 

14.6.1.1 La forme de I*histogramme 

Celle-ci peut conduire à éliminer certains modèles, en particulier si les propriétés de symé¬ 
trie ne sont pas vérifiées. Une forme symétrique conduit souvent à poser l’hypothèse de norma¬ 
lité mais il faut se souvenir que la loi de Laplace-Gauss n’est pas la seule à avoir une courbe de 
densité en cloche : c’est également le cas des lois de Cauchy et de Student entre autres. 

Une forme fortement dissymétrique peut suggérer l’usage de lois log-normales, gamma, 
Weibull ou bêta de type deux qui ont des courbes de densité assez ressemblantes au moins 
pour certaines valeurs des paramètres. 
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Le choix entre différentes distributions de forme semblable doit s'effectuer alors en tenant 
compte du phénomène étudié : ainsi en Habilité on se limitera aux lois exponentielles ou de 
Weibull qui ont une justification physique alors que la loi log-nomnale n’en possède pas dans 
ce cas. 

14.6.1.2 Vérification sommaire de certaines propriétés mathématiques 

On vérifiera sur l’échantillon si certaines relations concernant les paramètres d’un modèle 
sont vraies. 

Ainsi pour une loi de Poisson on sait que E(X) = V(X) ; on s’assurera que sur un échantillon 
x diffère peu de s* 1 . Une telle constatation est seulement un indice du caractère poissonnien 
d’une distribution mais n’en est nullement une preuve. On ne peut d’ailleurs jamais prouver la 
véracité d’un modèle par des moyens statistiques. Un modèle est choisi pour sa commodité et 
sa faculté de représenter un phénomène. 

Pour une variable de Gauss on sait que le coefficient d’aplatissement de cette loi 
est égal à 3 et que son coefficient d’asymétrie est nul. On vérifiera sur l’échantillon que 
les coefficients empiriques correspondants s’écartent peu des valeurs théoriques : on 
dispose pour cela de tables donnant les valeurs critiques de ces coefficients pour diffé¬ 
rentes tailles d’échantillon (tables A. 15 et A. 16), voir également plus loin l’abaque pour 
le test de normalité. 

14.6.1.3 Ajustements graphiques 

Pour la plupart des lois de probabilité une transformation fonctionnelle simple permet de 
représenter la courbe de répartition par une droite. 

La fonction de répartition empirique d’un échantillon de taille n diffère peu, si n est grand, 
de la fonction théorique F(x). On vérifiera alors simplement l’adéquation des données au 
modèle en comparant la fonction de répartition empirique à une droite sur un papier à échelles 
fonctionnelles. 

• Loi exponentielle 

Si la durée de vie X d’un composant est telle que : 

P{X > .y) = exp(— \x) on a alors ln(l — F(x)) — -X_v 

Pour un échantillon de taille n on reportera donc pour chaque valeur du temps de 
fonctionnement x le pourcentage de « survivants » à la date x sur une échelle logarith¬ 
mique. En pratique on reporte, si les a sont ordonnées par valeurs croissantes, les points 
de coordonnées : 


x 




pour 1 < / < ii 


Les points doivent alors être alignés approximativement le long d’une droite dont la pente 
fournit une estimation graphique de 
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• Loi de Weibuli 

Ici P(X > x) — exp(- Xx p ), d’où : 

1 n( — 1 n P(X > x)) = In X + (3 In.v 
et on reporte les points de coordonnées : 


La pente de la droite fournit une estimation graphique de p et son ordonnée à l’origine 
une estimation de ln X. 


In .Y,- ; ln —ln 


» Loi de Laplace-Gauss 

Ici la fonction de répartition n’ayant pas d’expression mathématique simple on utilise la 
X - in 

propriété U - -de la maniéré suivante : 

CT 


Si les observations X; proviennent d’une variable normale LG(w : cr) alors les u,- 


(-v, - ni) 


constituent un échantillon d’une variable normale centrée-réduite U. Si le nombre des obser¬ 
vations est grand, la fonction de répartition empirique (de l’échantillon) doit peu différer de la 
fonction de répartition théorique telle qu’elle est issue des tables. 

effectif < .v, 


Appelons F, les valeurs de la fonction de répartition empirique | F,- = 

A ces valeurs empiriques F { associons les valeurs correspondantes u f de la variable nor¬ 
male centrée réduite obtenues par la table : alors si la distribution est réellement gaussienne 


et si n est grand, u* doit peu différer de 


(v, ~ m) 


et il doit donc exister une relation 


linéaire entre u* et .v,- (le graphe u'f, x ( doit être à peu près une droite coupant l’axe des 
abscisses en m et de pente 1 /cr). Cette droite est appelée la droite de Henry, ou “QQ plot” 
pour quandle-quantile, en anglais. 

Les données ayant été ordonnées par valeurs croissantes, on reportera comme ordonnée 
i - 3/8 


de chaque valeur a,- 
loppées ici. 


n + 1/4 


et non ifn pour des raisons trop compliquées pour être déve- 


® Exemple 

Reprenons les données étudiées au chapitre 5 : les variations du taux de la taxe d’habitation 
de 100 villes françaises. L’histogramme et le la boîte à moustaches indiquent une répartition 
plutôt symétrique ; est-elle gaussienne pour autant ? 
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La droite de Henry montre des écarts importants concernant les queues de distribution • 
on peut mettre en doute la normalité de la distribution, mais il ne s’agit pas d’un véritable® 
test où on maitrise les risques d’erreur : 



Figure 14.6 


14.6.2 Les tests statistiques généraux 

Nous présenterons ici les deux tests les plus classiques, celui du x 2 et celui de 
Kolmogorov-Smimov, ainsi que celui de Cramer-von Mises. 


14.6.2.1 Le test du x 2 

Soit une variable aléatoire X discrète ou discrétisée, c’est-à-dire divisée en k classes de 
probabilités p b p 2 , . . p k . Soit un échantillon de cette variable fournissant les effectifs 
aléatoires N u N 2 , . . N k dans chacune de ces classes. 

On a E(N,) — np- r 

Considérons alors la statistique D 2 définie comme suit : 

d2 = y (W; ~ np, Ÿ 

è\ »Pi 

Il est clair que cette statistique est une mesure (on pourrait dire une distance) de l’écart 
aléatoire entre les effectifs réalisés et les effectifs espérés et intuitivement on sent que D 2 ne 

peut être trop grand. D 1 dépend du nombre de termes de la somme k mais on remarque 

/; 

que tous ces termes ne sont pas indépendants puisque 2N, = n ; il suffit d’en connaître en 

i=i 


fait k — 1. 
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Donc en fait D 2 dépend de k — I, nombre de degrés de liberté de D 2 . 

D’après le résultat établi au chapitre 4 à propos de la loi multinomiale on sait que : 

Théorème 

L Si ii —* 02 , D 2 est asymptotiquement distribué comme une variable de xi -1 et ceci quelle 
que soit la loi de X. 

? i A(n,- — > l Pi ) 2 

D’où le test du x~ •' on rejettera H {) si d~ constaté = >-est trop grand, c’est-à-dire 

i— I "Pi 

supérieur à une valeur qui n'a qu'une probabilité a d’être dépassée par une variable 
« Cas des estimations 

Il arrive bien souvent que seule la forme de la distribution soit spécifiée. Poisson, 
-Laplace-Gauss, mais qu’on ignore certains paramètres que l’on estime sur l’échantillon. 
Soit « / »> le nombre d’estimations indépendantes ainsi réalisées. Le degré de liberté du x 2 
devient alors le — 1 — /. 

Il convient ici de prendre certaines précautions : les estimations en question doivent être 
des estimations du maximum de vraisemblances effectuées au moyen des k classes de la dis¬ 
tribution, faute de quoi la distribution limite de D 2 n’est plus un x 2 . mais en tout état de cause, 
comprise entre les valeurs d’un xi ~i et d’un xi~\~i '■ si A est grand, ce phénomène n’est pas 
trop important, mais si k est petit il peut aboutir à garder inconsidérément H {) en se fondant 
sur la distribution de xl-i-t- 

• Effectifs par classes 

La loi de D 2 est asymptotique et l’on admet que D 2 ~ xl-i si np-, est supérieur à 5 pour 
toute classe (certains auteurs donnent comme condition 3, ou même 1 pour une seule classe 
en queue de distribution). 

Dans le cas contraire on procédera à des regroupements. 

® Cas des variables continues 

Si on a le choix du découpage en classes, on peut hésiter entre des classes équiprobables 
et des classes d’égales amplitudes, mais ces dernières doivent être déterminées a priori. 

Cependant pour des variables continues, le test de Kolmogorov-Smirnov est préférable, 
s’il n’y a pas d’estimation à effectuer. 

Pour des compléments, consulter Kendall et Stuart, volume 2, chapitre 30, Tests offit. 

• Propriétés du test 

On peut démontrer que le test du x 2 présenté ici est asymptotiquement équivalent au test 
du rapport des vraisemblances maximales appliqué aux hypothèses : 

[ H» : Pi = Pu) V i 
l#i : Pi * Pu) 3* 
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14.6.2.2 Le test d'ajustement de Kolmogorov 

Il s'agit d’un test non paramétrique d’ajustement à une distribution entièrement spécifiée J 
de fonction de répartition F(x). j 

Ce texte repose sur les résultats de Glivenko, Kolmogorov cités en théorie de 
l’échantillonnage (chapitre 12). 

Si F* représente la fonction de répartition empirique d‘un n-échantillon d’une variable 
aléatoire de distribution F(x). on sait que D n = sup | F'f;(x) — F(x) | est asymptotiquement 

distribué comme suit : P(\nD n < y) —» 2 (" l) A exp(—2 k 2 y 2 ) = K(y). 

La fonction K(y) a été tabulée et fournit donc un test de : 

\H 0 : F(x) = f’o(.v) 

1//, : F(x) * F o(.v) 


est D n > ——— pour ex = 0.01 
V/j 


La région critique étant définie par D n > d(n ). 


Au seuil a = 0.05 et si n > 80, la région critique 
1.6276 


D„ > 




Si n < 80 on se reportera alors à la table A. 14. 


14.6.2.3 Le test d'ajustement de Cramer-von Al/ses 

La statistique : ncol = f [F%x) — F(.v)] 2 dF(.v) 


est une variable aléatoire dont la distribution indépendante de F(x) sert à tester 
H 0 : F(x) — F 0 (x) contre 7/, : F(x) 4= F 0 ( x) car ma- est une mesure de l’écart existant entre 
une répartition théorique et une répartition empirique. Sa distribution a été tabulée (voir 
recueil de tables, table A. 13). 


On démontre que : 


mo- 




F(.y,.) 


si les Xj sont les valeurs ordonnées de l’échantillon (.v, < .v 2 , .. ., < .y,,). 


1 « 

On rejette H 0 si —- + Z 

12» i=| 


2 i - 1 
2 n 


FM 


est supérieur à une valeur que la variable 


aléatoire nw}, a une probabilité a de dépasser. 

Au seuil a = 0.05 on rejette H 0 si m û;, > 0.46136 pour n grand. 
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Bien que les lois des statistiques D n et ninç, ne soient pas connues, lorsque certains para¬ 
mètres sont estimés on utilisera avec profit les résultats empiriques (tableau 14.5) obtenus 
par simulation (Biometrika Tables, volume 2) : 


Tableau 14.5 


Test de normalité 


Test d’exponentialité 


H 0 : LG(m, a) 


1 



ni est estimé par a 


cr est estimé par ~ Z( A 7 ” - v ') 2 

On rejette H {) : 

- au seuil a = 0.05 

si (yfn + 0.85 /yfn - 0.01)D„ > 0.895 

ou (1 + 0.5 /n)mûl > 0.126 

- au seuil a. ~ 0.01 

si (yfn + 0.85/Vïï - 0.01 )D n > 1.035 

ou (I + 0.5 /h)«^ >0.178 


0 est estimé par a 

On rejette H 0 : 

- au seuil a = 0.05 

si (D„ - 0.2 /n)(yfn + 0.26 

-b 0 .5/yfn) > 1.094 
ou (1 + 0.16 /n)mj3~ > 0.224 

- au seuil a = 0.01 

si (D„ - 0.2 /n)(yfn + 0.26 

+ 0 .5/yfn) > 1.308 
ou (1 + 0.16/n)mu“ > 0.337 


14.6.3 Exemples d’application en fiabilité 
et en phénomènes d’attente 

14.6.3./ Test du caractère exponentiel c/’une loi de survie 

® Expérience classique 

On dispose d’un échantillon de n matériels identiques et on note les durées de vie en heures 
a-|,-v 2 , .. -,-v„. 


Exemple numérique : n = 5 


A-, = 133 a i = 169 Ai 


122 a< = 58 


Le paramètre a est estimé par a = - ^a, = 98, la fonction de répartition estimée est 

5 ,- =I 


F(a) = 1 — exp[-J d’où le tableau : 

98 / 


A / 

8 

58 

122 

133 

169 

F(Xi) 

0.079 

0.447 

0.711 

0.743 

0.821 
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La statistique de Kolmogorov vaut : 


tests statistiques 

'I 


D„ = sup 


F(x,) - ~ 
n 


F(x t ) 



car le maximum est nécessairement atteint en un des points de sauts de la fonction de 

. / 0.2V r 0-5 

répartition empirique. On trouve D n ~ 0.3 11 soit -/ \ ,? + + 

L’hypothèse H {) d’une distribution exponentielle peut donc être retenue (avec 
a = 0.05). 

La statistique de Cramer-von Mises vaut : 

1 5 /2/ - 1 V 

moz = — + Y- F(x,) = 0.09133 

M 60 10 1 


. ( 0.16 

et la quantité I 1 H-- 

\ n 


j/io) 2 = 0.0943 conduit elle aussi à accepter H () . 



• Expérience de durée limitée avec renouvellement du matériel défaillant 

Il est souvent pratiquement impossible de mener à bien l’expérience précédente des que n 
est assez élevé car le temps d’étude devient prohibitif. On préfère de beaucoup imposer une 
durée limite T à l'expérience en renouvelant au besoin au fur et à mesure les appareils tombés 
en panne de manière à obtenir plus d’informations. 

Les instants des pannes obéissent alors, si la durée de vie est exponentielle à un proces¬ 
sus de Poisson : en effet si » = 1 l’appareil en panne étant remplacé immédiatement, les 
instants des pannes successives suivent un processus de Poisson car les intervalles entre 
pannes successives sont indépendants et de loi 7 ] ; pour n appareils, le processus total est 
une superposition de n processus de Poisson indépendants, ce qui fournit encore un pro¬ 
cessus de Poisson. 

Soit 1 1 , L, . . ., î k les instants des pannes pendant T ; d’après le chapitre II, la distribu¬ 
tion conditionnelle des dates de panne, sachant k, est une loi uniforme sur [0, T] ; les 
instants des pannes q, t 2 , . . ., t k étant ordonnés, les tjT forment un échantillon ordonné 
d’une loi uniforme sur [0, 1] si la durée de vie est exponentielle. Le test du caractère 
exponentiel de la distribution revient alors à tester l’hypothèse que les t,/T suivent une loi 
uniforme sur [0, I], ce qui peut se faire soit par le test de Kolmogorov, soit par celui de 
Cramer-von Mises. 


m Exemples : 100 appareils sont constamment en service et sur une période de 
200 heures ; 5 pannes ont été relevées aux instants : r, = 51, t 2 — 78, t 2 = 110, / 4 = 135, 
t 5 =180. ™ 
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a Test de Kolmogorov 

On cherche le plus grand écart en valeur absolue entre la fonction F(x) = .v et les valeurs 
de la fonction de répartition empirique (Fig. 14.7). 



200 200 200 200 200 

Figure 14.7 


L’écart est le plus grand pour la première valeur et vaut D — = 0.255. 

En se reportant à la table de la distribution du test de Kolmogorov on voit qu’on peut 
accepter l’hypothèse H 0 que la durée de vie obéit à une loi exponentielle pour tout seuil 
a inférieur à 0.20, puisque à a = 0.20, la valeur critique est 0.447. 


« Test de Cramer-von Mises 

2 i — 1 îj 

~~2n T 


= ib + 1 


puisque pour une loi uniforme sur [0, 1] F(x) = x : 


mo: 


i + f-L-ü-V 

60 V10 200y 

\ 19 200/ 


1-2LY + 

10 200 / 


nul = 0.05192 


(— - 1^) 2 + (l 

V10 200/ Vio 



D’après la table A. 13, on peut accepter H () pour tout seuil a inférieur à 0.85 : 
P(/kü“ < 0.447) = 0.95 ; P(iml < 0.056) - 0.15 


14.6.3.2 Test du caractère poissonnier! des arrivées à une file d'attente 


Pendant 100 intervalles de 10 min on a compté le nombre X d’ouvriers se présentant à un 
magasin pour emprunter des outils, ce qui donne le tableau 14.6 (Kaufmann et Faure, 
Initiation à la recherche opérationnelle, Dunod). 
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On veut vérifier le caractère poissonnien de la loi de X : 

On utilisera ici un test du car la distribution est discrète (rappelons que les tests de 
Kolmogorov et de Cramer-Von Mises ne s’appliquent que pour des distributions continues). 


Tableau 14.6 


1 

-b 


100 p, 

(n , ~ 100 A -) 2 
100a 

5 

1 3 


0.18] 



6 

0 


0.33 



7 

1 

5 

0.74 

5.22 

0.009 

8 

2 


1.45 



9 

1 J 


2.52 J 



10 

3 

3.93 

0.220 

11 

5 

5.58 

0.060 

12 

6 

7.26 

0.219 

13 

9 

8.72 

0.009 

14 

10 

9.73 

0.007 

15 

1! 

10.12 

0.077 

16 

12 

9.87 

0.460 

17 

8 

9.07 

0.126 

18 

9 

7.86 

0.165 

19 

7 

6.46 

0.045 

20 

5 

5.04 

0.000 

21 

4 

3.75 

0.017 

22 

3] 


2.66' 



23 

1 


1.80 



24 

1 

6 

1.17 


0.255 

25 

1 


0.73 

| 7.37 


>25 

oJ 


LOI J 






CTs 

l-Tj 

II 

f't 


On estime le paramètre \ de la loi de Poisson supposée, par la moyenne empirique qui 
vaut 15.61. Pour calculer la valeur de D 1 on opère des regroupements aux extrémités pour 
les classes d’effectifs trop faibles, ce qui laisse 14 classes. 

Le paramètre \ ayant été estimé non pas sur les classes résultantes mais sur les valeurs 
initiales de l’échantillon, la valeur critique pour D 1 est comprise entre celle d’un xi 2 et celle 
d’un xï 3 - 

La valeur du d 2 calculé est bien en deçà de tout seuil de probabilité habituel pour un test : 
on peut accepter l’hypothèse d’une distribution poissonnienne. 

Remarque : un esprit soupçonneux trouverait peut être cette valeur de d 2 trop faible, 
puisque d'après les tables il y a 995 chances sur 1 000 pour que xh s °it supérieur à 3. 
L’ajustement est-il trop beau pour être vrai ? Nous laisserons le lecteur juge . ... 
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14.6.4 Tests de normalité 

L’ajustement d’une distribution normale à des données réelles justifie un traitement 
particulier en raison de l’importance de la loi normale. 

Il est tout à fait déconseillé d’utiliser le test du khi-deux en raison de son manque de 
puissance et du caractère subjectif du découpage en classes. 

On peut utiliser les variantes des tests de Kolmogorov et Cramer-Von Mises indiquées 
précédemment, mais ces tests omnibus n’utilisent pas de propriétés spécifiques de la loi de 
Gauss et sont moins puissants que les suivants qui sont d’ailleurs recommandés par la norme 
AFNOR NF X-06-050. 

Le plus simple à utiliser est le test conjoint d’asymétrie et d’aplatissement qui se présente 
sous forme d’abaque (cf annexe). 

Il suffit de vérifier si le point dont l’abscisse est la valeur absolue du coefficient d’asymétrie 
(skewness) et l’ordonnée le coefficient d’aplatissement (kurtosis) se situe à l’intérieur, donc vers 
la gauche de la courbe correspondant a la taille d’échantillon. 



0.2 0.4 0.6 0.8 1.0 1.2 1.4 




Figure 14.8 






370 


74œ Les tests statistiques 

' .' 0 VV"-y' 

Pour l’exemple des 100 valeurs de la taxe d’habitation on trouve un coefficient d’asymétrie de 
0.34 et un coefficient d’aplatissement de 4.47 ce qui conduit à rejeter l’hypothèse de normalité. H 

Le test le plus recommandé est celui de Shapiro-Wilk basé sur la comparaison de l’écart-type 
à une combinaison linéaire Sr/pv,- des étendues successives vr, = .v„ - .y, ; vis = -y„_, — as etc. 

Les coefficients de la combinaison dépendent de n et sont données dans des tables, ainsi 
que la région critique. Les calculs sont programmés dans la plupart des logiciels statistiques. 

Dans l’exemple précédent les statistiques de Kolmogorov et de Cramer-Von Mises valent 
respectivement 0.105 et 0.195 et conduisent au rejet de l’hypothèse de normalité. L 

Rappelons pour conclure que d’une part ne pas rejeter une hypothèse ne prouve pas 
sa véracité et que plusieurs distributions peuvent s’ajuster aux mêmes données, et d’autre 
part que lorsque que la taille de l’échantillon augmente il devient de plus en plus difficile 
d’accepter un modèle standard de distribution : en effet les lois de probabilité d’usage 
courant sont des modèles simplificateurs à peu de paramètres et ne peuvent pas toujours 
rendre compte de la complexité d’un grand ensemble de données. 


14.7 QUELQUES LIMITES DES TESTS 

Au terme de ce long chapitre il convient de faire les remarques suivantes. Les tests sont 
un outil essentiel du processus de décision en faveur ou en défaveur d’une hypothèse scien¬ 
tifique. Cela a pu conduire à des excès : un résultat ne pouvait être publié dans certaines 
revues que si un test l’avait déclaré statistiquement significatif au risque 5 %. 

Un point essentiel concerne la taille des échantillons : l’inférence statistique classique a été 
développée pour traiter des « petits » échantillons de l’ordre de quelques dizaines ou centai¬ 
nes d’observations au plus. En présence de très grandes bases de données le paradoxe est que 
tout devient significatif : par exemple, pour un million d’individus, l’hypothèse d’indépen¬ 
dance entre deux variables sera rejetée au risque 5 % si le coefficient de corrélation linéaire 
est supérieur en valeur absolue à 0.002, ce qui est sans intérêt pratique. On peut considérer 
que l’hypothèse nulle a été mal choisie, mais le problème persiste : l’hypothèse nulle devant 
être fixée avant la collecte, ou en tous cas avant l’analyse des données, on aboutira à son rejet 
dès qu’elle est trop précise car tout écart même minime devient significatif. 

Le problème se pose dans les mêmes termes pour les tests d’ajustement a des modèles : si 
les données sont des données réelles et non simulées, on aura tendance à rejeter le modèle. Il 
ne faut pas s’en étonner puisqu’un modèle est une simplification de la réalité : comment ima¬ 
giner que l’on puisse représenter des millions d’observations avec seulement 2 ou 3 paramè¬ 
tres ? Ce n’est pas d’ailleurs pour cela qu’il faut nécessairement abandonner le modèle, qui 
peut avoir d’autres vertus .. . L’analyse des grandes bases de données amène ainsi à repenser 
la notion de test et conduit à des recherches nouvelles sur la validation (voir chapitre 19). 

Un autre problème se pose quand on effectue un très grand nombre de tests sur les mêmes 
données, par exemple en génétique pour savoir si certains caractères sont présents. Il s’agit 
d’un cas semblable aux comparaisons multiples (voir paragraphe 14.5.1.4) mais de grande 
ampleur. Le risque de rejeter à tort une des hypothèses nulles croît rapidement avec le nom¬ 
bre de tests. Il faut alors recourir à la théorie du contrôle du taux de fausses découvertes 
(Benjamini et Hochberg, 1995). 





rééchantillonnage 

(Jack-knife, 

bootstrap) 


Dans de nombreux cas, il n’est pas possible d’obtenir des expressions exactes pour les 
distributions de statistiques de test ou d'estimateurs, car les calculs sont trop complexes. Les 
méthodes de simulation et de rééchantillonnage qui ont pu se développer avec les progrès de 
l’informatique permettent de substituer à une étude Üiéorique impossible, une démarche expé¬ 
rimentale où les lois exactes sont approchées par des répartitions empiriques. La simulation 
aléatoire (dite de Monte-Carlo par référence aux jeux de hasard) consiste à reproduire avec un 
ordinateur de nombreux échantillons issus de lois connues et à effectuer pour chacun de ces 
échantillons les calculs nécessaires, qui sont ensuite synthétisés. 


15.1 GÉNÉRATION DE VARIABLES ALÉATOIRES 

À la base des méthodes de Monte-Carlo se trouve la nécessité de simuler des échantillons 
artificiels de variables aléatoires. Toutes les méthodes reposent sur la génération de variables 
uniformes. 

15.1.1 Génération de variables uniformes sur [0 ; I] 

Bien qu’il existe des procédés physiques de réalisation de variables uniformes (roue de 
loterie par exemple) ils ne sont guère compatibles avec l’informatique et la nécessité de dispo¬ 
ser très rapidement de grands échantillons. On recourt donc à des algorithmes de génération 
de valeurs comprises entre 0 et 1 : un algorithme étant par nature déterministe, on parle alors 
de nombres pseudo-aléatoires. Un bon algorithme doit pouvoir réaliser des suites très grandes 
de nombres qui ont en apparence toutes les propriétés d’un n-échantillon de variables indé¬ 
pendantes et identiquement distribuées. 

Il est donc important de tester la qualité d’un générateur : on utilise pour cela des tests 
classiques d’ajustement et d’indépendance. 

Les méthodes les plus employées sont basées sur des suites récurrentes (qui fournis¬ 
sent donc nécessairement des suites périodiques). La méthode multiplicative congruen- 
tielle de Lehmer est la plus connue : r i + [ — ar, modulo m, c’est-à-dire que , est le 
reste de ar f divisé par m. 

En pratique on prend m le plus grand possible afin d’avoir la période la plus grande 
possible. 
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im 




On peut montrer que si a est de forme 8/ ± 3 et si /* 0 est un nombre entier positif impair 
quelconque la période de la suite engendrée est ni/ 4. 


Les nombres-'■— compris entre 0 et 1 sont alors considérés comme pseudoaléatoires 

ni 1 

c'est-à-dire comme un échantillon de la loi uniforme sur [0, I], 

Sur ordinateur on choisira généralement ni — 2 / ’" 1 où p est le nombre de bits d’un mot 
machine (le premier bit est inutilisable car réservé au signe). De plus la division par Z 7 '" 1 est 
aisée à faire sur ordinateur car elle correspond à une troncature. 

Un choix classique est a = 7 5 = 16 807, ou a = 2 ,r> + 3 = 65 539 avec ni = 2 31 — 1 


15.1.2 Méthodes générales de tirage d’un échantillon artificiel 
de n valeurs d’une variable aléatoire X continue 

15.1.2.1 Inversion de la fonction de répartition 

La méthode suivante s’applique lorsque F -1 a une forme analytique simple. 

Soit F(x) la fonction de répartition de X. La variable Y - F(X) est uniformément distribuée 
sur (0, 1]. 

flF-'(v)] 

En effet : g( y) = ^ = 1 

y - F 1 [F ~'(y)] 

Donc si l’on tire n nombres au hasard uniformément répartis entre 0 et 1 : r h r 2 , . . .. r„ 
l’échantillon cherché (x,, x 2 , .. ., x„) sera déterminé par x,- = F"'(/*,•) ; cette méthode est dite 
« de l’anamorphose » (fig. 15.1). 



On dit que l’on a simulé la variable X. 

15.1.2.2 Méthode du rejet de von Neumann 

Cette méthode est applicable lorsque la densité de X est à support borné et reste finie. On 
supposera que 1. 

Soit m un majorant de /(x). On tire un nombre V uniformément réparti entre 0 et 1 et 
ensuite un nombre V uniformément réparti entre 0 et m (fig. 15.2). 
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Si V < f(U) on conserve U qui est une réalisation de X et on pose u = x sinon on rejette 
U et on recommence. 

En effet la probabilité conditionnelle qu'une valeur U soit gardée sachant que U = x vaut 
P(V </(x)) — f(x)/m, la probabilité inconditionnelle est l/m (rapport de la surface sous la 
courbe de densité à la surface du rectangle), donc d'après la formule de Bayes : 


PO c < U < -v + d x/U est gardée) 



m 


l/m 


= f{x) d.v 


Cette méthode est recommandée pour simuler les lois bêta de type T dont on peut dédui¬ 
re la loi bêta de type II par la transformation Y = X/l — X. 

La méthode du rejet peut conduire dans certains cas à rejeter un trop grand nombre de valeurs. 

Une amélioration notable de la méthode du rejet consiste à utiliser une autre fonction de 

densité g facilement simulable, telle que cg(x) ^ /(.v). On généré alors un couple ( 3 ’ J *0 de 

J , f(y) 

réalisations indépendantes de Y de densité g et de u uniforme. Si u < --, v est accepté 

o?(y) 

comme réalisation de X de densité/(.v). Sinon on rejette la valeur y et on recommence. Si X est 
à support borné, on prendra par exemple pour Y une loi triangulaire. 



Figure 15.3 
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Si s est la surface comprise entre les deux courbes, on montre que le taux de valeurs acceptées 
1 

vaut-. 

r+1 

Lorsque la distribution à simuler est trop complexe, ou que sa densité n’est connue qu’à un Fac¬ 
teur multiplicatif près comme dans le cas de distributions a posteriori en statistique bayésienne, 
on utilise actuellement des méthodes dites MCMC (Monte-Carlo Markov Chains) qui consistent 
à simuler une chaîne de Markov qui converge vers la distribution à simuler. Les MCMC dépas¬ 
sent le cadre de cet ouvrage et nous renvoyons le lecteur intéressé à l’ouvrage de C. Robert (2001), 

15. S .3 Méthodes spécifiques 

15.1.3.1 Variable de Bernoulli X de paramètre p 

On tire un nombre au hasard entre 0 et 1 : r. 

Si r < p,X = 1 ; si r > p, X = 0. 

À partir de la variable de Bernoulli on peut simuler une variable binomiale 53 (/î ; p ) en 
utilisant le fait qu’une binomiale est une somme de n variables de Bernoulli indépendantes. 

/5. 1.3.2 Loi y p avec p entier 

La fonction de répartition d’une variable X suivant une loi y, est F(. v) = 1 — exp(—.v). La 
méthode de l’anamorphose nous donne, si rest un nombre aléatoire uniformément distribué 
entre 0 et 1 : r = l — exp(— x) soit .v = —ln( 1 — r). Comme 1 — r est aussi uniformément 
distribué sur (0, 1] il suffit pour simuler X de faire : 

x = — ln r 

Une variable X suivant une loi y ; , est une somme de p variables y, indépendantes, d’où la 
formule de simulation : .v = — ln r, — ln r 2 • • • — ln r p si p est entier soit : 

, - -ln(Êh) 


15.1.3.3 Loi de Poisson &(X) 

La méthode consiste à simuler un processus de Poisson de cadence 1 sur une période 
égale à X puisque le nombre d’événements survenant sur cette période suit une loi de Poisson 
WHfig. 15.3). 


2i 

^ 

X +1 

Figure 15.4 



Les intervalles successifs DE, ; E } E 2l . . . E n E n+i suivent indépendamment des lois 
yj. On engendre comme en 15.1.3.2 des variables y, et on ajoute leurs valeurs jusqu’à 
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dépasser X. ; la réalisation n de la variable de Poisson 3°(\) est alors le plus grand entier n 

I — Tl 

tel que : ^ — ln r, < X ou ce qui est équivalent mais plus économique du point de vue 

/ = i 

calcul : 

il 

II'/ > exp(-X) 

/=i 


15.1.3.4 Variable de Laplace-Causs 

• La méthode suivante repose sur le théorème central-limite 
Xi± 


r/Vn 


LG(0 ; 1) . Ce théorème étant valable en particulier pour des variables unifor¬ 


mes, la somme de n variables uniformes est donc approximativement une loi de Laplace-Gauss 
d’espérance n/2 et de variance n/12 car la loi continue uniforme sur [0, 1] a pour espérance 
1 /2 et pour variance 1/12. 

En pratique ce résultat est acquis dès que n = 12 d’où la méthode : 

Pour obtenir une réalisation d’une variable LG(6 ; 1) ajouter 12 nombres au hasard tirés 
entre 0 et 1. 

Soit r,, r 2 , .. r ]2 ces nombres et soit X une variable LG(/» ; cr) ; on a alors : 


v = ni + cri ^ r i ~ 6 


• Méthode de Box et Müller 

Cette méthode exacte découle du théorème suivant : 

Si U et V sont deux variables uniformes sur [0, I] indépendantes, alors X et Y 
définies par : 

X = (—2 In U) ]/2 cos 2irV 
Y = (—2 ln L0 ,/2 sin 2 ttP 

sont deux variables normales centrées-réduites indépendantes. 

Y 

En effet en notant p 2 — X 2 4- F 2 et 0 = Arc tg —. p 2 et 0 suivent indépendamment des lois 

X 

X 2 et uniforme sur |0, 217]. L’algorithme de Box-Muller revient à simuler l’angle 0 par 2irV 
et le rayon p par (—2 ln U) V1 puisque ys/2 suit une loi exponentielle (voir chapitre 4, 
paragr. 4.3.1). 

D’où pour deux nombres aléatoires r x et r 2 , deux réalisations de la loi LG(0 ; 1 ) indépendantes. 

• Méthode polaire de Marsaglia 

C’est une variante de la précédente utilisant une technique de rejet qui évite le calcul des 
sinus et cosinus. 
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On engendre deux nombres aléatoires r, et r 2 puis zq — 2r, - 1 et it 2 = 2 r 2 - 1 (zz, et z/, 
sont uniformément répartis sur l’intervalle [-1 ; +1]). On rejette zz, et u 2 si zzy + u\ > 1 afin 
de garder un couple uniformément réparti dans le cercle de rayon unité (fig. 15.5). 



Figure 15.5 


On montre alors 

i Ï U ' « 

couple —, — ou 
V P P / 


que p 2 = 

U { U 2 
— et — 
P P 


£7 7 + U\ est une variable uniforme sur [0, 1] indépendante du 
sont le cosinus et le sinus de l’angle aléatoire 0 uniformément 


réparti entre 0 et 277 ; d’où la formule : 



La simulation d’un vecteur aléatoire gaussien dont les composantes ne sont pas indé¬ 
pendantes peut s’effectuer en recourant à une ACP : si l’on connaît la matrice de variance 
covariance X, on en cherche les vecteurs propres qui vont fournir des combinaisons linéai¬ 
res gaussiennes et indépendantes que l’on simule aisément. On peut également utiliser la 
transformation de Mahalanobis. 11 suffit ensuite de faire faire la transformation inverse (voir 
chapitre 4). 


S 5.2 APPLICATIONS 

15.2.1 Simulation de fonctions de variables aléatoires 

Soit Y une variable s’exprimant comme une fonction f(X u X 2 ,. . . X p ) de variables de lois 
connues. Il sera en général difficile de trouver la loi (densité ou fonction de répartition) de Y 
même dans des cas simples. Si les Xj sont indépendantes, il est facile d’obtenir un échantillon 
artificiel de Y : il suffit de générer indépendamment une valeur de chaque variable, de cal¬ 
culer/et de recommencer. On peut ainsi résoudre le problème du calcul d’incertitudes en 
physique ou chimie où l’on connaît l’incertitude sur chaque variable sous la forme À.v qui 





377 


75 ^Méthodes de Monte-Carlo et de rééchancillonnage (Jack-knife, boocstrap) 

n’est en fait que deux fois l’écart-type de X si l’on se réfère a la loi normale. L’incertitude 
fry sera estimée par la moitié de l’écart-type de Y. 

X,X-, 

m Exemple : Y — -- ou X) suit une loi normale N(3 ; 1), X 2 une loi triangulaire et X 3 une 

loi gamma de paramètre 3. X,, X 2 , X 3 sont des variables indépendantes. 

0,4 r 

0,3 ; 

0,2 ; 

0,1 ; 

0 - 
-2 

En simulant L000 valeurs de Y on trouve : 



Moyenne = 2,4915 
Médiane = 1,66771 
Variance = 8,71593 
Écart-type = 2,95227 
Minimum = -0,0406886 
Maximum = 48,2368 
Étendue = 48,2775 
Asymétrie = 5,79394 
Aplatissement = 65,2381 



Avec 1000 réalisations, les résultats sonL suffisamment précis : 

Intervalle de confiance à 95, 0 % pour la moyenne : [2,30852 2,67448] 
Intervalle de confiance à 95, 0 % pour l’écart-type : [2,82831 3,08768] sa 


15.2.2 Calcul d’une intégrale par la méthode de Honte Carlo 

Toute intégrale peut se ramener par un changement de variable h une intégrale entre 
0 et I. 

g(t) dt est l’espérance de g(U) où U est une variable uniforme sur [0, 1]. 

Jo 


Or / = 
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1 n 

A partir d’un échantillon de la loi uniforme U, on estimera / par / = - ^gf//,) moyenne 
des valeurs de la variable g(U). 

On a: £(/)-/ et V(î) = - V(g(U)) = ~ 

n 2 n. 


[g(u) - g(v)] 1 du dv 


Le procédé peut être amélioré en remarquant que : 

r PéK') 


o P(0 


p{t ) d t 


où p(t) est la densité d’une variable T définie sur [0, 1] ; un choix judicieux de p(f) 
appelée « fonction d’importance » permet de diminuer considérablement la variance de 
l’estimation. 


En effet I ~ E 


9(T) 

_p(T) 


d’où : 


7 = 


1 f g(h) 

» èx PUÙ 


où les points t, ne sont plus choisis uniformément entre 0 et 1 mais selon la loi de 
densité p. 


On a alors : 




f g(Q \ _ ( 9(u) \ 

\p(t)/ \p(w)/ 


dr du 


La variance est alors nulle si p est proportionnel à g (ce qui suppose / connu . ..). 

En pratique on prendra une fonction d’importance dont l’allure est voisine de celle 
de g. 

Ce type de calcul est surtout utile pour l’évaluation numérique d’intégrales 
multiples. 


15.2.3 Distributions cPéchantiHonnage 
de statistiques complexes 

La simulation permet également de trouver la distribution approchée de statistiques 
complexes, et même de statistiques simples quand la population a une distribution peu 
maniable. 

Il suffit de répéter N fois la simulation d'un //-échantillon de X pour obtenir N valeurs de 
la statistique d’intérêt T : si /V est assez grand, on aura une bonne précision. 


m Exemple : Si U est une variable aléatoire uniforme sur [0 ; 0] le milieu de l’étendue d’un 
//-échantillon est un estimateur de 0/2 que l’on notera T. Quelle est la distribution et la 
variance de T pour n = 5 ? 

En prenant 0 = 1, on simule PI — 1000 échantillons de 5 valeurs d’une loi uniforme, on 
calcule à chaque fois T, d’où sa distribution empirique. 

Une simulation donne 1 = 0,5003752 s = 0,1106459 
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Remarque : ce n’est pas l’estimateur sans biais de variance minimale qui est 
4 - 1 

-sup(X. ;... ; XJ et dont la distribution est la suivante : 

2 n 



T z 

§5.2.4 Données manquantes et imputation multiple 

Il est fréquent d’avoir des valeurs manquantes dans des tableaux de données (données 
omises, refus de réponse, erreurs etc.). Avant de savoir comment traiter le problème, il faut 
s’interroger sur le mécanisme qui a produit une valeur manquante pour une variable Y. Pour 
simplifier, nous nous placerons dans le cas où une seule variable numérique présente une 
valeur manquante. Le mécanisme est dit « non-ignorable » si la probabilité que Y soit 
manquant dépend de la vraie valeur de Y (exemple : la probabilité de ne pus donner son 
revenu est d’autant plus grande que le revenu est élevé). Des modèles spécifiques sont alors 
nécessaires pour prendre en compte ce mécanisme. 
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Dans le cas contraire on dira que la donnée est manquante aléatoirement (« missing at 
random »). Deux options principales s’offrent au praticien : 

- ignorer la donnée manquante en supprimant l’individu de l’analyse, mais on voit vite 
que s’il faut supprimer tous les individus dans ce cas, on risque d’appauvrir fortement 
l’échantillon ; 

- remplacer la valeur manquante par une valeur plausible : c’est l'imputation. 

Tl existe de nombreuses méthodes d’imputation : 

- remplacer la valeur manquante par la moyenne des valeurs non-manquantes (mais on 
ne tient pas compte des autres variables) ; 

- effectuer une régression multiple où Y est expliquée par les autres variables sur les 
données complètes. 

Ces méthodes dites d’imputation simple souffrent d’un défaut majeur : elles sont déterminis¬ 
tes en ce sens que deux individus qui ont les mêmes valeurs des autres variables auront la même 
valeur imputée de Y , ce qui n’est pas réaliste et conduit à une diminution artificielle de la varian¬ 
ce. Il vaut mieux tirer au hasard une réalisation de K, considérée comme une variable aléatoire, 
dans la loi conditionnelle de Y/X { ,X 2 , ■.. X p , d’où l’utilisation des techniques de simulation. 

La solution la plus élaborée rendue possible par les moyens de calcul actuels est l’imputa¬ 
tion multiple : on effectue plusieurs tirages, ce qui conduit à plusieurs tableaux de données que 
l’on analyse séparément. Les résultats sont ensuite regroupés pour étudier la variabilité attri¬ 
buable aux données manquantes. 

Le problème est en réalité assez complexe et nécessite une approche bayésienne : si l’on utilise 
un modèle de régression pour estimer la valeur manquante y - 3o + P i-^i + ■ ■ • $ p X p + e, 
il ne suffit pas de tirer des valeurs dans la distribution du résidu E, mais il faut tenir compte 
du fait que les coefficients p - du modèle sont estimés, donc aléatoires. On doit donc tirer aussi des 
valeurs des dans leur distribution a posteriori qui elle même dépend des valeurs manquantes. 

Nous renvoyons le lecteur intéressé à l’excellent petit livre de Paul D. Allison (2001). 


15.3 MÉTHODES DE RÉÉCHANTILLONNAGE 

Les méthodes de simulation exposées précédemment permettent d’obtenir des distri¬ 
butions d’échantillonnage d’estimateurs dans le cas classique où l’on dispose d’un modè¬ 
le paramétrique f(x ; 0). En l’absence de modèle réaliste, ce qui est souvent le cas en 
pratique, comment simuler ? En d’autres termes comment tirer des réalisations d’une dis¬ 
tribution inconnue ? Ce problème paradoxal se résout en tirant dans une distribution pro¬ 
che de la distribution inconnue et la meilleure en l’absence d’information, n’est autre que 
la distribution empirique. C’est le principe des méthodes de rééchantillonnage où on va 
tirer au hasard des observations dans l’échantillon dont on dispose. Dans le bootstrap on 
effectue des tirages avec remise, alors que le jack-knife procède par tirages sans remise. 

15.3.1 Le bootstrap 

Soit une variable X de loi F inconnue ; on dispose d’un échantillon (.v ( , x 2 ,. . ., .v (1 ) et on 
veut étudier par exemple la distribution d’un estimateur T d’un certain paramètre 0, calculer 
sa variance, en donner un intervalle de confiance. 
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L’idée de cette méthode due à B. Efron repose sur le principe élémentaire suivant : 

Si n est grand F* est proche de F , on aura donc une bonne approximation de la loi de T 
en utilisant F* à la place de F. 

On est donc amené à tirer des échantillons de n valeurs dans la loi Fjf ce qui revient à 
^échantillonner dans l’échantillon v,, x 2 , . . ., .v„ ; autrement dit à effectuer des tirages avec 
remise de n valeurs parmi les n valeurs observées : les valeurs observées x { , x 2 ,. . x„ sont 
donc répétées selon les réalisations d’un vecteur multinomial Ai,, K 2 , . . ., K„ d’effectif n et 
de probabilités p { égales à l/n. 

Lorsque n n’est pas très élevé on peut énumérer tous les échantillons possibles équipro¬ 
bables (il y en a if) sinon on se contente d’en tirer un nombre B suffïsament grand à l’aide 
d’une technique de tirage dans une population finie. 

Si le nombre de réplications B tend vers l’infini, la moyenne de toutes les estimations 
bootstrap converge vers l’estimateur du maximum de vraisemblance empirique (c’est-a-dire 
utilisant la loi F*) et permet ainsi d'estimer sa variance. En pratique on se contentera de 
quelques centaines de tirages au plus. 

Le calcul d’intervalles de confiance peut se faire par : 

- La méthode des percentiles qui consiste simplement à repérer les quantiles souhaités 
dans la distribution des B valeurs. C’est la méthode la plus simple. 

- L'approximation normale : on calcule la moyenne et l’écart-type des B réalisations et 
on utilise un intervalle à ±1.96 écart-types. 11 faut bien sur vérifier la normalité 
approximative de la distribution des B valeurs. 

- D’autres méthodes plus complexes nécessitant une estimation de la variance pour 
chaque échantillon répliqué (voir Davison & Hinkley, 1997). 


ssa Exemple : bien que ce ne soit pas un échantillon aléatoire, reprenons les données du 
chapitre 5 sur les valeurs du taux de taxe d’habitation de 100 communes françaises. On sou¬ 
haite obtenir un intervalle de confiance pour la médiane qui vaut 17,625 et on effectue pour 
cela 1000 retirages. 

On trouve la distribution suivante : 


Moyenne = 17.7872 
Médiane = 17.625 
Écart-type = 0,630658 
Minimum = 15.87 
Maximum = 19.39 



L’intervalle de confiance des percentiles est [16,70 18,92] en prenant respectivement la 
25 e et la 975 e valeur ordonnée. 

L’intervalle avec approximation normale [16,55 19,02]. m 
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Le bootstrap est donc une méthode très générale qui permet de répondre à des problèmes 
jusque là quasi impossibles à résoudre comme l’étude de la variabilité de résultats d’analyses 
factorielles (valeurs propres, vecteurs propres etc.) ou l’estimation de variance dans des son¬ 
dages complexes. Il faut cependant être conscient que si la taille n de l’échantillon de départ 
est faible, il y aura en général sous-estimation de la variabilité : les intervalles de confiance 
auront tendance à être trop petits (couverture insuffisante). En effet le rééchantillonnage ne 
permet pas par définition d’engendrer des valeurs autres que celles déjà observées, ce qui peut 
être gênant pour des variables numériques, mais l’est moins pour des variables qualitatives où 
en général, toutes les modalités sont observées, au moins marginalement. Cela étant, le boot¬ 
strap est une méthode d’étude de la variabilité intrinsèque à un échantillon. 


15.3.2 Le Jack-knife 

Cette technique a été proposée par Quenouille pour diminuer le biais d’un estimateur et 
reprise par Tukey ; elle est moins performante que le bootstrap. 


15.3.2.1 Définition 


Soit T un estimateur calculé sur un échantillon de taille n. 

On note TL, l’estimateur calculé sur le (n — 1) échantillon obtenu en enlevant l’observation 
i et on appelle pseudo-valeur Tf : 

T* = nT - (n - 1)7_, 

L’estimateur Jack-knife est alors la moyenne des pseudo-valeurs : 

1 " 

Tj = -2t* 

> 0=1 


ce qui donne 7} = T — (n - 1) - X(7J - T). 

» ;= i 

La variance de l’estimateur Jack-knife est alors donnée par : 


r , _ 1 $07- Tjf 

07 ~ 2j i 

71 : = , 71—1 


15.3.2.2 Réduction du biais 


Supposons que E(T) — 0 + -, alors E(7j) = 0. 

n 


En effet : 


E{Tj) = E(T) - (n - 1)(£(7L,.) - E(T)) 


= 0 + - - (n - 1) 

71 


0 + 


n - 1 


0 - 


a ii—l 

0 q- a q- a -= 0 

71 71 
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À titre d'exercice on peut vérifier que la méthode du Jackknife appliquée à la variance S 1 
donne l’estimateur S* 2 , et que appliquée à x on retrouve .v. Le calcul du Jackknife est surtout 
utile pour des statistiques biaisées dont le biais est très difficile à calculer (coefficient de 
corrélation par exemple). 

15.3.2.3 Intervalle de confiance 


J. Tukey a émis la conjecture suivante : 


7} - 0 


Sj 


7: 


i 


qui permettrait d’obtenir des intervalles de confiance indépendamment de toute hypothèse sur 
la loi de X et en se servant uniquement de l’information apportée par les données. Cependant 
cette conjecture est manifestement fausse dans certains cas : la médiane en particulier car les 
T-i ne peuvent prendre que deux valeurs différentes (si n est pair). 

Il vaut mieux prendre comme degré de liberté le nombre de pseudo-valeurs réellement 
distinctes diminué d'une unité, ce qui conduit à des résultats souvent acceptables. 




La régression simple 


Considérons un couple de variables aléatoires numériques (X, Y). Si X et Y ne sont pas 
indépendantes, la connaissance de la valeur prise par X change notre incertitude concernant la 
réalisation de Y : elle la diminue en général, car la distribution conditionnelle de Y, sachant que 
X = -V, a une variance qui est en moyenne inférieure à la variance de Y : E\V{Y/X)\ 2 V(Y) 
d’après le théorème de la variance totale (il est toutefois possible que V(Y/X = a) > V(X) pour 
certaines valeurs de X). 

Lorsque l’on peut admettre que le phénomène aléatoire représenté par X peut servir à 
prédire celui représenté par Y (causalité, concomitance, etc.), on est conduit à rechercher une 
formule de prévision de Y par X du type Y = /(X), sans biais E[Y — Y] ~ 0, ainsi qu’à 
évaluer l’ordre de grandeur de l'erreur de prévision que l’on mesure par la variance de 
e = Y — Y . On cherchera bien sûr à minimiser cette variance. 

Nous étudierons le cas théorique en recherchant la formule de prévision idéale (au sens 
des moindres carrés), plus spécialement si cette formule est linéaire avec un écart-type condi¬ 
tionnel constant ct(e/X = x) = tr (homoscédasticité), puis le cas usuel où les variables ne 
sont connues qu’a travers les valeurs d’un échantillon. 

X sera dit variable explicative ou prédicteur ; 

Y sera dit variable expliquée ou critère. 

Certaines propriétés seront seulement énoncées, le lecteur étant renvoyé aux démonstrations 
faites dans le chapitre sur la régression multiple. 


16.1 LE MODÈLE THÉORIQUE DE LA RÉGRESSION SIMPLE 

16.1.1 L’approximation conditionnelle 

Étant donné deux variables aléatoires Y et X, la recherche d'une fonction / telle que 
/(X) soit aussi proche que possible de Y en moyenne quadratique a déjà été abordée au 
chapitre 3, paragraphe 3.3.2. 

On sait que/(X) = E(Y/X) réalise le minimum de E[(Y —f(X)) 2 } car E(Y/X) est la projec¬ 
tion orthogonale de Y sur l’espace Ly des variables du type/(X) (fig. 16.1). espace contenant 
À droite des constantes. 
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La qualité de l’approximation de Y par E(Y/X) est mesurée par le rapport de corrélation : 

-, V(E(Y/X)) Variance expliquée 

T1Ï-/V = - = -;-;— = cos-fi 

' V(K) Vanance totale 

La fonction qui, à une valeur x de X, associe E(Y/X = x ) s’appelle fonction de régression 
de Y en X, son graphe est la courbe de régression de Xen X. 

On peut alors poser Y = E(Y/X) + e, où e est un résidu aléatoire pas toujours négligeable. 
e a pour propriété d’être d’espérance nulle : E(e) = 0 car E(Y) ~ E(E(Y/X)). 

De plus, e est non corrélé linéairement avec X et avec E(Y/X ), car e est orthogonal à L% 
La variance de e ou variance résiduelle est alors V(e) = (I - T|yy y ) V(Y) . 

16.1.2 Cas où la régression est linéaire 

Ce cas, le plus important dans la pratique, est celui où E(Y/X) — a + |3X. (Ceci se pro¬ 
duit en particulier si X et Y suivent une loi normale à deux dimensions). On a donc : 

Y = a + 3X + e 

En prenant l’espérance des deux membres de la relation E(Y/X) = a + (3X, il vient : 

E(Y) = a + (3E(X) 

La droite de régression passe donc par le point de coordonnées (E(X), EfL)). On a : 

Y - E(Y) = P(X - E(X)) + e 

en multipliant par X — E(X) de chaque côté et en prenant l’espérance : 

E[(Y - E(Y))(X - E(X))\ = PE[(X - E(X)) 2 ] + E[ e(X - E(X))] 

soit cov (X, Y) = PV(X) + cov (e, X) car E(e) = 0. Mais, comme e est non corrélé avec X, 
il reste : 


cov(X, X) 
V(X) 


= P 


£r 
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L’équation de la droite de régression est donc : 


, „ cov(X, Y) 

E{Y/X) - E{Y) = — -(X ~ E{X)) 


d'où : 


y = E(Y) + p — (X - E(X)) + £ 


Comme £ est non corrélé avec X, on peut écrire, en prenant la variance des deux membres : 


V(Y) = p 3 ^V(X) + V(e) 

o\v 

V(Y) = P 2 v(y) + v(e) 


Comme on a vu que V(e) = (1 — Tjyy x )V(Y)< on retrouve le fait que si la régression est 
linéaire : 

i _ 'y 

p~ — T|ïy v 

Rappelons que dans ce cas, il est inutile de chercher une transformation de X, autre 
que linéaire puisque E(Y/X) est la meilleure approximation possible de Y par/(X). 


16.2 AJUSTEMENT SUR DES DONNÉES 

On dispose de n couples (a,-, y,) ; i = 1,. . ,, n constituant un n-échantillon d’observations 
indépendantes de (Ai, Y). On suppose vraie l'hypothèse : 

E(Y/X) = a + 

Le problème est donc d’estimer a, P ainsi que la variance cr 2 du résidu £. 

La méthode qui va être développée s’applique encore si la variable X n’est pas aléatoire, mais 
contrôlée par l’expérimentateur (c’est le cas par exemple quand on mesure Y différence de 
potentiel aux bornes d’une résistance pour différentes valeurs de l’intensité du courant : l’inten¬ 
sité n’est pas aléatoire, mais Y l’est, par suite des erreurs de mesure entre autres), ou imposée 
par la nature des choses (Y est une grandeur mesurée à différentes dates, a,, .. ., A yi ; X est donc 
le temps). Il suffit alors de supposer que pour chaque observation, on a y y = a + pA,- + £, où 
les £,■ sont des réalisations indépendantes d’une variable E d’espérance nulle et de variance 
constante cr 2 , quel que soit A;. 

On parle alors de modèle linéaire plutôt que de régression linéaire. 

C’est parce que les propriétés de la méthode des moindres carrés ne dépendent que des 
lois conditionnelles à X fixé que l’on peut traiter indifféremment la régression linéaire et le 
modèle linéaire par les mêmes techniques. On prendra garde cependant de ne parler de 
corrélation entre L et X que lorsque X est aléatoire. 

De nombreux modèles non linéaires se ramènent facilement au modèle linéaire par des 
transformations simples. 
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Ainsi le modèle y — ax^, très utilisé en économétrie (élasticité constante de y par rap¬ 
port à -v ; (3 coefficient d'élasticité), devient un modèle linéaire en passant aux logarithmes : 
y' — In v, x' = ln .v et alors y' — In a + f3.v'. 

Il en vu de même pour le cas du modèle à croissance exponentielle : y = a exp((3.\) ; il 
suffit de poser y' = ln y pour avoir y' — ln a + f3.v. 

Le modèle logistique souvent posé pour rendre compte des variations d’un taux de réponse y 

exp(a + (3-v) 

(compris entre 0 et 1) en fonction d’une « excitation » x : v — —-se linéarise 

F ' 1 + exp(a + (3.v) 

en posant v' = ln — 1 —. On a alors v' = a + (3.v. 

1 — y 

Cependant le modèle y — a + exp((3.v) n’est pas linéarisable, tandis que le modèle 
y — a + p.v + y.v 2 est linéaire, mais est à deux variables explicatives si on pose x 2 ~ z 
et y — cv. + p.v + yz (voir régression multiple). 

16.2.1 Estimation de ot, P, o- 2 par Sa méthode 
des moindres carrés 

La méthode des moindres carrés due à Gauss reprend sur l’échantillon la propriété que 
E(Y/X) = a. + [3X est la meilleure approximation de Y par X en moyenne quadratique. On 
cherche donc à ajuster au nuage des points (.v,, y,-) une droite d’équation y ;,: = a + bx de telle 

n 

sorte que 2(y f — y*) 2 soit minimal (fig. 16.2). 

/= i 



On étudie ensuite les propriétés de a et b en tant qu’estimations de a et (3 ainsi que 
l’estimation <r 2 de a 2 que l’on en déduit. 

La méthode élémentaire de détermination de a et b est la suivante : 

XO’/ - }’fl 2 = SO’i - a - bxi Ÿ = F(a. b) 

i=l i ~I 
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dF DF 

Ce minimum est atteint pour — = — 

da db 


0, ce qui donne les deux équations : 


Il _ 

XO’i ~ a ~~ bxi) = 0 « Y - a + bx 

i = 1 
11 

2-V,(y, - fl - /av,) = 0 
;= i 


dont la solution est : 


7f 

S(3V - ÿ)(A-; - Â) 
1 = 1 _ 

il (a -, - x) 2 

/ = t 


cov(.v, y) 



Sy 


y* 

= V + /• — (a 

“A) 

■S.r 



La droite des moindres carrés passe donc par le centre de gravité du nuage et sa pente est 

<7 V 

l’analogue empirique de la pente de la droite de régression p—, 

CT X 

Puisque les \\ et, dans le cas de la régression, les a,-, sont des réalisations de variables aléa¬ 
toires, il ne faut pas perdre de vue que â, y, r, j r , s y , a, b , sont des réalisations de variables 
aléatoires. 


Théorème I 


a, b et y* sont des estimations sans biais de a, P et de E(Y/X = .y) = a + (Ly. 


b est une réalisation de la variable aléatoire B : 


2(X - «i; - y ) 

i — 1 _ 

i=i 


Pour montrer que E(B) = p, nous allons montrer en fait que E (Xi) {B ) — p où E Ui) (B) dési¬ 
gne l’espérance conditionnelle de B connaissant les valeurs X f = a,- des variables Xj. Comme 
l’espérance de l’espérance conditionnelle est l’espérance de B on aura E(B) = p a fortiori : 


E {X HB) 


EUi - ï)£ w (Y - Y) 

2(.v,-ï) 2 


Or E^fYj) = a + p.v, par hypothèse de régression linéaire, et aussi alors : 

E (X \Ÿ) = a + p.Ÿ 
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£(*/“ A ') 2 

Donc : E (Xt) {Y i — Y) - (3 (.y, - x); £ w (5) - f3 ^- 

X (A; “ x) 2 


on a donc : 


E (X \B) = [3 


d’oü 


E(B) = (3 


Comme a = y — bx, a est une réalisation de A = Y - BX, et, par le même procédé : 

E <x HA) = E ix HŸ) - xE lx >\B ) 

= a + (3-v — .v(3 


E {X HA) = a 


donc 


E(A) = a 


Puisque E(Y/X — x) ~ a + [3.v, y* = a + bx est une estimation sans biais de a + |3x. 

On peut montrer de plus que B n’est pas corrélé avec Y : on a tout d’abord la simplification 
suivante : 


X(a, - -v )( Vj - y) S (a, ~ A-)y, 

S (A/ - x ) 2 X(A'/ “ x ) 2 

r i 

car : X(a.- ~ Â)(y,- - y) = X(a, ~ Â)y,- - ÿ]S(- v / “ a) et 2 (a/ - â) = 0 

ï / i i 

La covariance conditionnelle de Æ et Y à a* fixés est donc : 


co v{B ; Y) = cov 


_\ 

; Y 


2(a, “ a) 2 


X(A',- - A -) 2 , 


— 2(JC, - Â) cov(y,- ; Y) 


Or cov(L,- ; L) — cov[ Y i ; - Y K- ) = —, car Y } et Y-, sont indépendants si / =r= j : il vient 
\ n j V n 


2 

cov(B ; Ÿ) = 17 _ 2>, - ï) = 0 

«2/(Af - A-)- ,■ 


car 2(x ; - a:) = 0. B et Y sont non corrélés conditionnellement aux A',-, ils le sont donc 
marginalement. 

Cependant, le fait d’être sans biais n’est qu’une qualité mineure pour des estima¬ 
teurs. Le théorème suivant (pour une démonstration, voir le chapitre sur la régression 
multiple) prouve la qualité des estimations obtenues, ceci sans référence à aucune loi de 
probabilité. 
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Théorème 2 (Gauss-Markov) 

I A et B sont parmi les estimateurs sans biais de a et fi fonction linéaire des ï„ ceux de 
1 variance minimale. 


Montrons que la variance conditionnelle de B est : 


V U HB) = 


E(-'f - -'T 


En effet : V" J (B) = V (V| 


/S(-Vi - -v)(!',)\ 2 (.ï,. - 2(-'V - ï)V 


iE(-v,-s) 3 / Efe-.v ) 3 Ete-.v ) 2 


puisque à .v,- fixé, ï) = a + fix i + e. Donc V(Y-JX ( = .v,) = V(e) = cr 2 . 
Comme A = Y — BX on a V{A) = V(Y) + x 2 V(B) à .v, fixés, d’où : 



Pour exprimer a 2 = V(£), il est naturel de penser à utiliser la variance des résidus 

e { = v,- - yf, c’est-à-dire la quantité que l’on a minimisée : ü(v,- — vj |: ) 2 . 

/ 

On montre alors (cf régression multiple) le théorème : 

Théorème 3 

2(.V; - y*) 2 

est une estimation sans biais de cr 2 . 


- 9 


16.2.2 Propriétés des écarts résiduels 

Soit Cj — y f — yf l’écart résiduel. 


Théorème 


Les Cj sont de moyenne nulle. 


Démonstration 

Comme yf — v + b(x t - x), on a LLe i = S (y,- — )’j |: ) = S(y,- — v) — ù—• (a:,- - x) donc 

/ / / J 

S é?/ = 0, ce qui prouve que les e,- ne sont pas des réalisations indépendantes d’une variable 

ï 

aléatoire. tm 
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La variance empirique des est donc égale à - 2 e T et est notée sj, x et est appelée variance 

^ i 

résiduelle. 

On a alors le résultat suivant : 


4 , = U - r 2 )sl 


En effet : 

4/x = ~ S(>’/ - y?) 2 ~ ~ v) 2 + —2(- Y i " *) 2 _ — 2(v, - ÿ)(Xj - x) 

U i 11 i II ; Il / 

Sy/x — -y? + b 2 s 2 ~ 2b cov(.v, v) 

T, TT T, TT T T _ ✓ . T, T 

= s? + r~s~ — 2r-^nv ç r = + r ~ s v ~ 2rs;. — (1 — r~)s~ 

... 


16.2.3 Cas où le résidu £ suit une loi normale 

Tous les résultats établis précédemment supposaient uniquement E(Y/X) = a + (3Y. 

Si on admet maintenant que e suit une loi LG(0 ; cr), on a tout d’abord : 

a) Y/X = .v g LG(a + (3a ; cr). 

b) B , ri. Y* suivent, les a,- fixés, des (ois de Laplace-Gauss car ils sont des combinaisons 
linéaires de lois de Laplace-Gauss : 


B e LG p ; 


v W2 (-l --ï ) 2 

i 

A e LG( a ; c r-\ 1 -\ - — - 

V Vu 

i 

(a + J3 a ; cr a/- -i —-' K - 

V Vu ^(a,- — Â) 2 


y* g lg 


c) ri, 5, â 2 sont les estimateurs de variance minimale de ot, (3, cr 2 . 

(n _ 2)6 .t S(>v - yf) 2 ns 2 

d) - - -— —---= —~ est une réalisation d’une variable x 2 --> indépendante 

CT" CT" CT“ 

de K, de B et de A. 


Remarque : A et B ne sont pas indépendants. 

Les points c) et d) seront démontrés dans le chapitre concernant la régression multiple. 
L’usage des lois de ri et B suppose a connu, ce qui n’est pas vrai en général. 
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(B " P) 


Puisque 


Ai 


S- v > “ -O 2 


g LG(0. 1) et —~ e x 2 --’ sont indépendantes on a 
o~ 


(B-3K j- t ,, 

- yn — 2 suit un /„_ 2 

S y/x 

ce qui permet de donner des intervalles de confiance pour (3. 
La relation précédente s’exprime usuellement par : 


(B ~ P) _ ^(B - p)j. 


CT 


On trouve de même : 


(A - a) _ 

04 - cl) 


fi- T 2 — "- 2 

+ 

n X(.ï,-j?) 2 

i 


Application : Loi de r quand p = 0, cas de la régression entre variables aléatoires. 
Quand p = 0, on a [3 = 0 (hypothèse dite de non-régression). 

En remplaçant B par R — et S v / X = 5 v V 1 — R 2 il vient facilement : 


R 


Vl - R 2 




2 suit un T„ 


16.3 TESTS DANS LE MODÈLE LINÉAIRE 


16.3.1 Analyse de variance de la régression 

Effectuons la décomposition classique : 

V; - v = y, - yf + yf - v 

où e est supposé LG(0 ; cr). 

On voit aisément que 2(yf — y)(y,- — yf) = 0. 

i 


Donc : 


SO’; - y) 2 = 2()'i ~ y*) 2 + 2(>f “ y) 2 

i i i 

Somme des carres Somme des carrés Somme des carrés 
totale résiduelle expliquée 
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On sait que : 


En,- - y,*v 


Xn-2 


Si l’hypothèse B n : (3 = 0 (hypothèse de non-régression linéaire) est vraie et dans ce cas 
seulement : 


2(Y,- F) 2 


= x;- 


Y* - F\ 2 „B\X, - XŸ- 


„(F* - F) 2 

Puisque p = 0. on en déduit alors que 2j -i- suit un xï car on sait que 

(B - (3) 2 S(X, - X) 2 

--suit un y? comme carré d’une variable LG(0 ; 1 ). 

o~ 

Le théorème de Cochran s’applique et S(F f — YfŸ et S(F* — Y) 2 sont donc indépendants 

. i i 

et alors : 


S(F? - F) 2 

—-(h — 2) suit un F( l ; n — 2) si p = 0 

X(F* - F,) 2 
/ 


Le test du caractère significatif de la régression est alors immédiat. Ce test est d’ailleurs 
identique à celui du coefficient de corrélation linéaire : 

[ffo:p = 0 

[//, : p =É 0 


qui, lui, n’a de sens que si X et Y sont aléatoires. 


En effet, le rapport précédent n’est autre que 


R 2 

1 - R 2 


(n — 2) car : 


i2(r*-F,) 2 = Sf/A- = (l-R 2 >S? 

» i 

Et comme l’on sait que (7),_ 2 ) 2 = F (1 ; n — 2) le test précédent est donc équivalent au 
test portant sur R. 

16.3.2 Test d’une équation de régression spécifiée 

po : a = a 0 et P = Po 
[#, : a ^ a 0 ou P ^ Po 

Il s’agit de tester simultanément les deux coefficients de régression. Comme A et B ne sont 
pas indépendants, il serait incorrect de tester successivement a puis p. 
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Nous donnerons ici uniquement le résultat, qui est un cas particulier de celui obtenu en 
régression multiple. Un tel test est souvent utile pour savoir si une droite des moindres car¬ 
rés diffère significativement de la première bissectrice. 

n(a - gï 0 ) 2 + 2 nx(a - oi 0 )(6 - (3 0 ) + {b ~ 0o)uE A f 

/ 

est une réalisation d’une variable F (2 ; n — 2). On rejettera H 0 si la quantité trouvée est trop 
grande. 


Si H 0 est vraie, la quantité —- 

2â- 


16.3.3 Test de linéarité de la régression 


Ce test, qui semble fondamental, a pour but de savoir si l’hypothèse E(Y/X) = a 4- (3X 
est fondée. Il devrait donc précéder toute étude de régression linéaire. En fait, ce test 
nécessite d’avoir des observations répétées de Y pour chaque valeur de X, ce qui est souvent 
difficile sauf dans le cas d’une expérimentation où X est un facteur contrôlé. En effet, on 
cherche à savoir si la courbe des moyennes conditionnelles est une droite, en d’autres termes 
si les Vj, moyennes des iij observations de Y lorsque X = Xj, sont à peu près liées linéairement 
aux Xj. 

Pour cela, on compare le coefficient de corrélation linéaire r au rapport de corrélation 

“ y ) 2 

-> 11 i .1-, 

empirique : e~ = —-;-car. dans l’hypothèse de régression linéaire Tjjyv = p-. 

Xv 

On montre alors que si l’hypothèse /7 () : rpy A - = p 2 ou E{Y/X) = a + 0X est vraie alors : 


(g 2 - r-)/k - 2 
(1 - e 2 )/n - k 


F(k - 2 ; /i - k) 


où k est le nombre de valeurs distinctes de X. On rejettera H {) si le rapport est trop grand. 

Dans ces conditions, on pourra aussi tester les hypothèses H {) : T|[y A - = 0 contre 
H x :t 0 afin de savoir si une formule de régression autre que linéaire peut être 
essayée. 

^ e 2 /k — 1 

En effet, si t|w y = 0 est vraie, on sait que- — -- = F(k — 1 ; n — k). 

(1 — e~)/n — k 


16.3.4 Contrôle des hypothèses du modèle linéaire 

Les propriétés de la méthode des moindres carrés dépendent essentiellement du fait que 
le résidu e a une variance constante quel que soit a, et qu’il n’y a pas d’autocorrélation entre 
les diverses réalisations de e. 

11 convient donc toujours de s’assurer de la validité de ces deux hypothèses, ce que l’on 
fait usuellement en étudiant de manière empirique (des tests rigoureux sont délicats à établir) 
les valeurs des écarts résiduels e h e 2 , . . -, e n qui ne doivent pas laisser apparaître de tendan¬ 
ce quand on les confronte graphiquement aux par exemple, ou de dépendance en étudiant 
la liaison e h Dans le cas contraire, les estimateurs b, eu à ne sont plus de variance 
minimale (ils restent toutefois sans biais). On se reportera au chapitre suivant pour l’étude 
détaillée des résidus. 
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8 Le test de Durbin-Watson 


Ce test est couramment utilisé en économétrie pour s’assurer de la non corrélation des rési¬ 
dus. On suppose ici que les observations sont ordonnées par le temps et on teste l’hypothèse 
Hq : « non corrélation des e, » contre H } : « 8, processus auto-régressif d’ordre 1 » c’est-à-dire 
£,■ = p£j_j + itj avec p > 0 (le cas p < 0 est en général sans intérêt). 

On prend pour statistique de test : 

d = ^ - 

n 

le} 

i=l 

qui doit être voisin de 2 si H {) est vraie. 

On vérifie sans peine que 0 ^ J £ 4. p peut être estimé par 1 — cl/ 2. Les valeurs critiques 
de d ont été tabulées (voir annexe table A. 17). 


8 Un cas simple d’hétéroscédasticité 


Il est fréquent d’avoir V (e/X = x) = crlv 2 : l’écart-type du résidu croît linéairement avec 
le prédicteur. 

Les estimateurs des moindres carrés sont sans biais mais ne sont plus de variance minimale. 
En écrivant la vraisemblance des y,- on a : 


Uy'uy-. . y„) = 


exp 




_L^6',-a-3.v,V 


2a-- { 


x t 


Les estimateurs du maximum de vraisemblance sont alors les estimateurs de variance 
minimale et on voit sans peine que le problème est équivalent à une régression usuelle sur 
des données transformées. 


V- 1 £• £■ 

En posant y/ = —, x' = — et £,■ — — on a en effet : y/ = p + ax' + — = ^ + ocx- + £■ 
Xi Xi Xi ' Xf 

avec V(£■) = a 2 . Il suffit donc d’ajuster une droite au nuage 

La constante du modèle transformé est la pente de la droite de régression du modèle ori¬ 
ginel et vice-versa. 

On obtiendra alors, bien sûr, une analyse de variance de la régression moins flatteuse mais 
des estimations plus précises des coefficients de régression. 


16.4 APPLICATIONS 
S 6.4.1 Exemple (tableau 16.1 ) 

Les données suivantes, communiquées par M. Tenenhaus, professeur à HEC, concernent 
un échantillon de 24 offres de vente d’appartements situés dans le 5 e et le 6 e arrondissements 
de Paris, en 1975. 
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Tableau 16.1 


y Prix en milliers de Francs 

130 

280 

800 

268 

790 

500 

320 

250 

X Surface en mètres carrés 

28 

50 

196 

55 

190 

110 

60 

48 

Prix 

378 

250 

350 

300 

155 

245 

200 

325 

Surface 

90 

35 

86 

65 

32 

52 

40 

70 

Prix 

85 

78 

375 

200 

270 

295 

85 

495 

Surface 

28 

30 

105 

52 

80 

60 


100 


La forme du nuage de points autorise un ajustement linéaire (fig. 16.3). On pose donc le 
modèle Y — a + (3X + e et on supposera £ e LG(0 : cr). 



Des calculs élémentaires conduisent aux 5 résultats suivants, qui contiennent toute 
l’information utile : 

-v = 70,0833 nr v = 309,333 10 3 F s x = 44,6915 m 2 
s y — 182,9505 10 3 F r = 0,9733 

On en déduit tout d’abord les estimations a et b de a et j3 : a = 30,0921 et b = 3,9844. 

L’équation de la droite d’ajustement est donc y* = 3,9844 a - 4- 30,0921. 

Notons ici que les estimateurs des moindres carrés sont invariants par changement 
d’échelle des variables au sens suivant : 

Si Y est multiplié par une constante k (passage du franc à l’euro par exemple), la pente b 
et l’ordonnée à l’origine a sont multipliées par la même constante k. 
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Si X est multiplié par une constante le (par exemple surface exprimée en pieds carrés au 
lieu de m 2 ), la pente est divisée par k , l'ordonnée à l’origine ne change pas. 

Dans tous les cas, le coefficient de corrélation ne change pas, pas plus que les statistiques 
de test. 

La variance résiduelle s;/ x s’obtient directement par la formule sj/ x = (l — r 2 )s 2 y 
soit : 

- 41,98 
d = 43,84. 

Il L ~ 

Les estimations des variances de A et B sont donc : 

«- 2 (- +-—-J = CT^-fi + = (16.6455) 2 = 277,0724 

V” 2(JC f - x) 2 ' v» «;/ 


à~ ct 2 

--- = — = (0,2003 ) 2 = 0.0401 

2 ( a - / -- v ) 2 ns* 

i 

L’hypothèse de normalité de £ permet de donner des intervalles de confiance pour ces 
diverses estimations ; ainsi, pour cr 2 . —M- est une réalisation d’une variable xl--> • table 

CT" 

de la distribution de x 2 à 32 degrés de liberté fournit les bornes 11 et 36,8 pour un intervalle 
de probabilité à risques symétriques de niveau 0.95 (fig. 16.4). 



VA 


1762.1816 d’où 


*v/x 


On en déduit : 


— 4,. = 1922,38 d’où 



L’intervalle de confiance est donc donné par : 


1149,25 < ci 2 < 3844,76 
33,90 < ct < 62,01 


soit avec 1 — a = 0,95. 
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Le test de signification de la régression peut être effectué par l’analyse de variance pré¬ 
sentée dans le tableau 16.2 : 


Tableau 16.2 


Source de variation 

Somme des carrés 

Degré de liberté 

Carré moyen 

Expliquée par la régression 

761 009 

1 

761 009 

Résiduelle 

42 292 

22 

1 922,4 

Totale 

803 301 

23 



La valeur/"constatée-= 396 est évidemment très sisnificative. 

1 922.4 

On pourrait aussi, ce qui est strictement équivalent, tester H 0 : (3 = 0 contre H\ : p A 0 en 
comparant b/â h à une variable de Student à 22 = n - 2 degrés de liberté : 


b 

t = — = 19,9 

O"/, 

ce qui excède tout seuil usuel. On peut donc accepter H 0 . On aura remarqué que 19,9 = (396) l//2 . 

Les deux tests précédents sont aussi équivalents au test du coefficient de corrélation 
linéaire H {) : p = 0 contre H ] : p A 0. 


16.4.2 Prévision d’une valeur ultérieure 


Supposons maintenant que l’on désire prévoir à l’aide du modèle la valeur de Y pour une 
valeur non observée ,v 0 de X. La prévision naturelle est K 0 '" — a + bx {) . 

Afin d’encadrer cette valeur, cherchons ce que l’on appelle un intervalle de prévision. 

On a vu que Lq" est distribué selon une loi : 


LG 


œ + (3.v 0 ; cr 


'i , (■'■<> - ü j 

" 2u,.-.v)4 

i 


On sait d’autre part que la loi de Y/X = a 0 (en abrégé L 0 ) est une loi LG(a + (3.v 0 ; a) par 
hypothèse du modèle de régression linéaire. Y 0 et Y'^ sont deux variables indépendantes, 
car L„ ne dépend que de la valeur future _y 0 tandis que Y ( ne dépend que des valeurs déjà 
observées (.Y h x 2 , . . x n ) si l’on suppose les réalisations de e indépendantes. 


Y 0 — Frf suit alors une loi LG 0 ; cta / 

i + i + 

\ Y 

n 2(a-,-x)4 


et donc : 


Y q ~ Yn 


1 (.Yq - À) 2 

1 + + 

" S(-v, - ï) : 

r 
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En remplaçant x 0 par sa valeur et Y ( j'‘ par a + bx {) , on peut donc obtenir un intervalle 
probable pour Y {) . Cet intervalle sera d’autant plus grand que x 0 sera éloigné de x. 

Ainsi, pour notre exemple, on trouve dans la table que P(| I < 2,074) = 0,95. 

En prenant .v 0 = 100, on a vj, = 428,53. 

âJ] + - + — ~ A) ~ - 43,84Vl + 0,06 + 0,03 = 45,15 

V " E(av-ï ) 2 
; 


d’où : 


y 0 - 428,53 
45,15 


< 2,074 


l’intervalle de prévision à 95 % est donc 334,89 < Y 0 < 522,17, ce qui est assez imprécis 
malgré un coefficient de corrélation très élevé. 

La variance de l’erreur de prévision dépend de deux termes : la variabilité intrin¬ 
sèque de la variable Y 0 qui est égale à cr 2 et la variabilité dûe à l’imprécision des esti¬ 
mations de a et (3 dans la formule de régression qui dépend pour l’essentiel de la 
taille de l’échantillon et peut donc être réduite contrairement à la première source de 
variabilité. 

La figure 16.5 montre la droite des moindres carrés encadrée par les deux types de contour 
à 95 % (ce sont des arcs d’hyperboles). 



Figure 16.5 Régression du prix sur la surface. 


Les limites les plus étroites correspondent à l’intervalle de confiance de la valeur moyenne 
E(Y/X = x) : 


y* 



(A- - x ) 2 

2(a - â) 2 
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Les limites les plus éloignées correspondent à l’intervalle de prédiction pour une valeur 
unique : 


y* ± ter 


r 


1 

1 + - + 

n 


(A' ~ -V ) 2 

S(A/ ~ Â ) 2 

/ 


/ est la valeur de la variable de Student telle que P(| 7„_ 2 1 > 0 = 5 %, 


16.5 UNE MÉTHODE DE RÉGRESSION ROBUSTE 


La méthode des moindres carrés est sensible à la présence de données aberrantes situées 
loin de la droite de régression. 

Ainsi sur l’exemple suivant, on a y* = 14,55 + 0,59 a avec r = 0,978 



i 

3’ 

X 

1 

11,797 

4,1379 

2 

24,719 

17,241 

3 

45,505 

37,241 

4 

47,752 

55,172 

5 

64,606 

88,275 

6 

71,348 

95,862 


Si l’on modifie le dernier point en le remplaçant par y = 97,191 x = 14,482 
L'équation devient y :|: = 38,41 + 0,28 _v et le coefficient de corrélation tombe à /• = 0,29. 



On peut remédier à ce problème de deux façons : 

- en éliminant les points « aberrants » ; 

- en utilisant un autre critère que les moindres carrés. 

La première solution peut être risquée et n’a de valeur que s’il s’agit effectivement de 
données erronées ou appartenant à une autre population, ce qui n’est pas toujours simple à 
déterminer. 
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La deuxième approche a l’avantage d’être automatique et de fournir un modèle robuste 
convenant à la majorité des données, en perdant toutefois les propriétés d'optimalité des esti¬ 
mateurs des moindres carrés, mais ces propriétés ne sont valables que sous certaines conditions. 

De nombreuses techniques robustes ont été proposées ; l’une des plus anciennes (elle a 
été proposé en 1757, soit 50 ans avant la méthode des moindres carrés) est la régression dite 
L, où on minimise la somme des valeurs absolues : 

SI y?~ a - bXj | 

i= 1 

mais son utilisation a longtemps été négligée car contrairement aux moindres carrés, il 
n’existe pas de formule donnant les coefficients et leurs erreurs standard. Des algorithmes 
spécifiques sont nécessaires. 

Dans l’exemple précédent cette méthode fournit l’équation v* = 19,66 + 0,5Le et le 
graphique suivant montre que la solution L, (en pointillé), avec la donnée perturbée reste 
plus proche de la solution initiale (en gras) que celle des moindres carrés (en tireté large). 

Une particularité de la régression L, est que la droite optimale passe toujours par deux des 
points de l’échantillon (ici les points 4 et 5) mais on ne peut savoir à l’avance lesquels. On 
pourra consulter Birkes et Dodge (1993) pour de plus amples développements. 



16.6 RÉGRESSION NON PARAMÉTRIQUE 


Lorsque la forme de la courbe de régression est complètement inconnue, on peut utiliser 
une estimation non paramétrique de la courbe /(.v) = E{Y/X = x ) d’une manière semblable 
à l’estimation non-paramétrique de la densité (cf 13.9). 

En se donnant un intervalle [a — h/2 ; x + /z/2] centré sur x et de longueur /z, le régres- 
sogramme consiste à compter le nombre de points appartenant à l’intervalle et à calculer la 
moyenne des y correspondants. 

De manière analogue à l’estimateur de la fenêtre mobile, on peut écrire cette estimation : 


E(Y/X = x ) = 


n 

2 K 

1 = 1 

.V - .Y, 

/, J* 

2 k 

/= i 

-V - X { 

h 



avec K(u) = 1 si 
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On obtient l’estimateur de Nadaraya-Watson en utilisant un noyau K continu, d’où une 
estimation continue de la fonction de régression. Son caractère plus ou moins lisse dépend 
de h que l’on peut optimiser au moyen d’une méthode de validation croisée : on cherche 
la valeur h qui minimise la somme des carrés des écarts en omettant à chaque fois dans la 
formule de Nadaraya-Watson la valeur .y,- quand on fait l’estimation en ce point. 

L’estimation non paramétrique de la régression fournit seulement des valeurs point par 
point. Cela peut paraître gênant si l’on cherche un modèle explicite, mais si l’on ne cherche 
pas à extrapoler en dehors du domaine observé de la variable explicative, on a toujours une 
prévision. 

Sur des données de B. W. Silverman reliant l’accélération Y subie par le crâne d’un 
motocycliste en fonction du temps X après l’impact, on voit clairement l’intérêt de la 
méthode, car il n‘y a pas de modèle simple pour la courbe de régression (calculs effectués 
avec XploRe 4.2). 


Estimateur de Nadaraya-Watson h = 2.8 



Figure 16.6 








La régression 
multiple et le 
modèle linéaire 
général 


Ce chapitre généralise le précédent. L’accent y est mis sur les interprétations géomé¬ 
triques. La complexité du sujet ne provient cependant pas tant de la difficulté des calculs, 
mais plutôt de la diversité des approches possibles que nous résumerons ici par la distinction 
entre modèle linéaire et régression multiple. 

L’apparente simplicité d’utilisation des programmes de calcul, qui servent aussi bien pour 
la régression que pour le modèle linéaire, car les formules de résolution sont en pratique les 
mêmes, masque en réalité de profondes différences quant au modèle utilisé. 

La pratique de la régression multiple est assez délicate comme l’illustreront les paragraphes 
17.3 et 17.4. 

17.1 RÉGRESSION ET MODÈLE LINÉAIRE 

17.1. S Régression entre variables aléatoires 

17.1.1.1 Aspect empirique : la recherche d’un ajustement linéaire 

On a mesuré sur n individus p + 1 variables représentées par des vecteurs de 
IR" y, x h x 2 , .. ., x p : y est la variable à expliquer ou critère, les Xj les variables explicatives 
ou prédicteurs. 

Les variables explicatives seront généralement supposées être linéairement indépendantes, 
ce qui ne veut pas dire qu’elles sont statistiquement indépendantes (en particulier, elles peu¬ 
vent être corrélées). Il faut donc proscrire absolument la terminologie utilisée dans certains 
ouvrages où y est dite variable dépendante et les Xj variables indépendantes. 

On cherche alors à reconstruire y au moyen des x ; par une formule linéaire. 

On pose y* = /; () 1 4- Zqx, + b 2 x 2 4- ■ • • 4- b ]) x p et on désire que y* soit le plus proche 
possible de y. 

Si l’espace des variables IR'est muni comme d’habitude de la métrique D, on exigera 
que ||y - y*|| 2 soit minimal : c’est le critère des moindres carrés. 

y* est alors la projection D-orthogonale de y sur le sous-espace W (de dimension (p + 1) 
en général) engendré par les variables 1, x b x 2 , . . x ; , (Fig. 17.1). 



408 


77mLa régression multiple et le modèle linéaire général 



Soit X la matrice à n lignes dont les colonnes sont 1, x,, .. x p : 


X = 


I -v, 


(on exigera n > P) 


1 X n | . . . x tl 

On sait que l’opérateur de projection D-orthogonal sur W a pour expression 
X(X'DXr'X'D. 


Donc : 


y* = X(X'DX)~ X'Dy 


En posant b = 


b P 

L J 


on a : y* = Xb par hypothèse, donc : 


b = (XDXr'X'Dy 


En particulier, si D = - I : 

n 


b = (X'Xr'X'y et y* = X(X'Xr'X'y 


b est appelé vecteur des coefficients de régression. 


I7.I.L2 Modèle probabiliste : l’hypothèse de régression linéaire multiple 

Si l’on veut justifier autrement que par sa simplicité l’ajustement linéaire de y par les x jr 
on peut utiliser le modèle probabiliste suivant : 

On suppose que y, x h x 2 , .. x p constituent un n échantillon d’observations indépendantes 
de p + l variables aléatoires i|/, cp,, (p 2 ,. . 
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On sait que la recherche de la meilleure approximation de par une fonction des cpy est 
donnée par l’espérance conditionnelle £[vj;/<p,, ip 2 , . . ., <p ]. 

On pose alors V hypothèse de régression linéaire multiple : 

£['!'/<Ph <P2, • - %] = 3o + 2 P/<P/ 

7=1 


P 

qui conduit au modèle i|/ = (3 0 + 2 Pytpy + e où e est une variable aléatoire d’espérance 

7=1 

nulle non corrélée avec les <pj. On note ct 2 la variance de e. 

En règle générale, les coefficients P 0 , p M . . (3 /; et cr 2 sont inconnus ; il s’agit donc de les 

estimer le mieux possible. 

Entre les réalisations v,-, ,v fl ,.. x ip , e { de cp h . .(p p , e il existe la relation suivante, 
déduite de l’hypothèse de régression linéaire multiple : 

V; = 3o + 2 IV v '7 + e i i = y, 2 ,..., n 

7=1 


ce qui s’écrit matriciellement y = Xp + e 


avec 


P = 


Po 

Pi 


LP/J 


e 2 


Sous des hypothèses assez générales, on montrera au paragraphe 17.2 que le vecteur 
b obtenu par la méthode des moindres carrés est la meilleure estimation du vecteur p 
et que l’on peut déduire simplement de ||y — y*|| 2 la meilleure estimation sans biais de 
cr 2 qui sera : 


lly ~y*ll 2 

n — p — 1 


17.1.2 Le modèle linéaire général 

17.1.2.1 Aspect empirique 

Supposons que pour chaque ligne de X on ait k répétitions indépendantes de y. 

On a donc un nuage de k vecteurs y h y 2 , . . ., y k dans IR" (fig. 17.2). 

On obtient ce genre de situations lorsque l’on fixe par exemple certaines valeurs 
des conditions expérimentales (température, pression, etc.) et qu’on mesure plusieurs 
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fois cle suite un phénomène pour les mêmes combinaisons de valeurs des conditions 
expérimentales. 

Le modèle linéaire consiste alors à postuler que le centre de gravité du nuage des 
y, ; y 2 ,. . . ; y k se trouve dans W : g = X[i. 

Le problème est alors le suivant : comment, à l’aide d’une seule observation y, approximer 
le mieux possible g ? En effet, en réalité on ne connaît la plupart du temps qu’un seul point 
du nuage. 

L’approximation g* de g obtenue grâce à y peut s’exprimer comme la projection 
orthogonale de y sur W, selon une certaine métrique M. Il faut alors choisir cette 
métrique M de telle sorte que g* soit le plus proche possible de g. Autrement dit, si l’on 
répétait l’opération de projection avec y,, y 2 , . . ., y*, les k approximations g : j\ g*, ..., gf, 
devraient être le plus concentrées possible autour de g avec g* — X(X'MX) -, X r My £ 
(fig. 17.3). 


•V, -Va 



Figure 17.2 



II faut trouver la métrique M telle que l’inertie du nuage des g f soit minimale. 

Si V est la matrice de variance-covariance du nuage des y f , on démontre alors que 

la métrique M rendant l’inertie des g f minimale est la métrique V -1 . 

Ce résultat constitue le théorème de Gauss-Markov généralisé^ 1 ). 

Comme gf est de la forme Xb„ ceci entraîne alors que le nuage des b,- est le moins 
dispersé possible dans U 1 , car la matrice de variance des b,- est égale à (X'X) fois celle 
des gf. 

Avec une seule observation y, on déduit : 

g* = X(X'V -1 X)" 1 X'V -, y 
b = (X'V^Xj^X'V-’y 


I raPour une démonstration complète on consultera l'ouvrage de Cailliez et Pagès, Introduction à l'analyse des don¬ 
nées, p. 323 à 327. 
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/ 7. 1.2.2 Modèle probabiliste 

Ce modèle n’est que la généralisation du cas précédent pour une infinité de répétitions. 

On suppose que y est une réalisation d’un vecteur aléatoire d’espérance Xp et de matrice 
variance 2. Ceci revient à poser le modèle y = XfJ + e où e est une réalisation d’un vecteur 
aléatoire centré de matrice de variance 2. 

Le problème est alors d’estimer au mieux p. 

Suivant la notation de C. R. Rao, nous noterons en abrégé un tel modèle par le triplet 
(y : X(î ; 2). 

On montre alors que le vecteur b = (X'2 -, X) _l X , ÜS~ 1 y est, sous des hypothèses 
assez larges, l’estimation de variance minimale de p • b est appelé estimation des moin¬ 
dres carrés généralisés, par opposition à (X'X) _, X'y estimation des moindres carrés 
ordinaires (mco). 

S 7.1.3 Synthèse 

Dans les deux cas, régression linéaire et modèle linéaire, on a été amené à poser le même 
modèle : y = Xp + e. 

Cependant, les hypothèses sont différentes : dans le modèle linéaire X est un tableau de 
données certaines, alors qu’en régression X est aléatoire. 

Le vecteur des résidus e a une matrice variance quelconque 2 dans le modèle linéaire, 
alors qu’en régression le vecteur e a pour matrice variance cri car l’hypothèse d’échan¬ 
tillonnage suppose les observations indépendantes. 

Les objectifs sont également différents ; en régression, on veut ajuster au mieux y ; dans 
le modèle linéaire, on cherche à estimer l’effet moyen des variables explicatives. 

Si l’on considère dans le modèle de régression linéaire multiple les variables explicatives 
comme des constantes, ce qui revient à travailler conditionnellement aux tfy, il est clair que 
ceci revient au même que de poser le modèle linéaire (y ; Xp ; cr 2 I„) si tous les individus ont 
le même poids. 

En fait, la plupart des propriétés de la régression multiple s’obtiennent conditionnellement 
aux variables explicatives comme en régression simple, ce qui nous autorisera à ne plus parler 
que du modèle (y ; Xp ; cri). 

Par ailleurs, l’utilisation complète du modèle linéaire suppose connue la matrice 2. Or, en 
pratique, on ignore 2 et, faute de mieux, on fait couramment l’hypothèse simplificatrice que 
2 est diagonale (non corrélation des erreurs) et que tous les termes sont égaux (homoscédas- 
ticité), c’est-à-dire que 2 = cri,,, quitte à vérifier a posteriori sur les résultats la validité de 
ces deux hypothèses. 

Ceci explique la confusion entre modèle linéaire et régression multiple ; dans ce qui suit, nous 
ne ferons plus la distinction, car nous nous référerons désormais à l’unique modèle simplifica¬ 
teur (y ; Xp ; cri), en supposant que les poids des observations p t = 1 jn sont égaux entre eux. 

Remarquons pour finir que le terme de linéaire s’applique en fait au vecteur P et non aux 
variables explicatives ; ainsi, la régression polynomiale — p 0 + (B,(p + + ■ ‘ ‘ P / ,cp / ’ 

est un cas particulier du modèle général où l’on prend p variables explicatives ip, cp~, . . cpL 
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17.2 ESTIMATIONS ET TESTS DES PARAMÈTRES 
DU MODÈLE (y ;XfS;<x 2 f) 

17.2.1 Estimation de et de a 2 

17.2.1.1 Propriétés générales 

Soit b la solution des moindres carrés : b = (X'X) -l X'y. 

Théorème I 

b est un estimateur sans biais de p. 

œss Démonstration : E(b) = (X'X)~ ] X' E(y) car X est constante et est un opérateur linéaire. 
E( y) = Xp par hypothèse du modèle linéaire général (e, donc e est d’espérance nulle). Donc : 

E( b) = (X'Xr 1 X'Xp = p sa 


Théorème I (de Gauss-Markov) 


L b est de tous les estimateurs sans biais de p de la fonne By, celui de variance mini¬ 
male dans le sens qui sera précisé plus loin. 


i Démonstration : 

- La matrice variance de b est en effet 


Vffb) = tr 2 (X'Xr 


car : 


VÇb) = KlX'Xr'X'y) = (X'Xy'X' V(y)X{X f X)~ ] et V(y) = V(e) = cr 2 I,, 
- Soit By un autre estimateur linéaire de p sans biais. 


Soit (X'X) ’X'y — By la différence de ces deux estimateurs. Comme ils sont sans biais 
on a (X'Xr'X'Xp = BXp. 

On a donc BX = I /)+ , car cette relation doit être vérifiée pour tout p. 

Posons B = (X'X)-'X' + C. 

Comme BX = on en déduit : CX = 0. 

Cherchons la matrice de variances-covariances de By : 


V(By) - BV(y)B' 

= ffX'Xr'X' + C] crLffX'X) -1 X' + C]' 

= Œ^cx'xr'x'x (x'xr 1 + cxix'xr 1 + (x'xr'x'c + cci 

soit, puisque : CX = 0 

= (j 2 [(X‘X)~ ] + CC'3 
V{By) = V(b) + crCC' 

On en déduit que pour chaque composante de b, b f est un estimateur meilleur que (By),- 
et que d’autre part P(By) — V(b) est semi-définie positive. (En effet, les termes diagonaux 
de CC' sont -- 0). m 
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Ce théorème est un cas particulier du théorème général énoncé en 17.1.2.1. 


Théorème 


lly-y :,: IF lly ~ xb || 2 

CT“ = - = - 

11 ]) 1 11 p 1 

est un estimateur sans biais de cr 2 . 


m Démonstration : Considérons (voir fig. 17.4) le triangle rectangle dont les sommets 
sont les extrémités des vecteurs y, Xb et Xp. 



Soit A le projecteur sur W(A = X(X'X) ’X') et I — A le projecteur sur VP 1 . 

Puisque y — Xb est orthogonal à VP, on voit aisément que y — Xb est égal à (I — A)e car 
e se décompose sur VP et W L en Xb — Xp et y — Xb respectivement. 

Donc y — Xb = e'(I — A)'(I — A)e et comme I — A est un projecteur : 

(I — A)' = I - À = (I — A) 2 
et on obtient alors : ||y — Xb|| 2 = e'(I — A)e 

= E e ; e j 

ij 

où a jj est le terme courant de (I — A). 

Donc E[|jy - Xb|) 2 ] = E a ij £ (C e j)- 

Comme les e,- sont non corrélés E(e t ej) = ô^a 2 où 8,y est le symbole de Kronecker. 

fï 

Donc E[ ||y — Xb|| 2 ] = cr = a 2 trace (I - A). 

;= i 

On sait que la trace d'un projecteur est égale à son rang (car ses valeurs propres sont 0 ou 1), 
c’est-à-dire à la dimension de l’espace d’arrivée qui est ici VP 1 . Comme dim W = p + 1, on a 
dim IP 1 = n — p — 1 : 


E[||y - Xb|| 2 ] = cr 2 (j 2 — p — 1) 
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17.2.1.2 Propriétés supplémentaires si e est gaussien 

Introduisons alors l’hypothèse e,- e LG(0 ; cr) V/. 

La densité du vecteur aléatoire y s’écrit : 


U y, p, cr) 


( Ær 


ex P ( -T^r(y - Xp)'(y - Xp) 

2cr 


car y est alors un vecteur gaussien multidimensionnel ; y € N„(Xp, cr 2 !,,). 


Théorème 

Les estimateurs de maximum de vraisemblance de p et cr sont : 

P = b = (X'X) -l X'y e t — ||y — Xb || 2 (qui est biaisé) 


La démonstration est laissée au soin du lecteur. 

Conformément à ce qui a été développé dans la partie consacrée à l’estimation nous allons 
rechercher des statistiques exhaustives pour les paramètres inconnus p et cr 2 afin d’étudier 
l’optimalité des estimateurs associés, caria propriété du maximum de vraisemblance ne nous 
renseigne pas sur l’efficacité des estimateurs. 

La densité de y peut s’écrire : 

U y. P, <T) = - J— - exp(— -b (y'y - 2p'X'y - p'X'XP) ) 

cr"("V 2 tt)' ! V 2cr- / 


Soit a(p, ct 2 ) le vecteur ligne à p + 2 composantes : 


1 Po Pi P 2 P/ 


et : 


T(y) = 


y y 
L x ’y. 


On a : 


Uy. P, cr) =-exp (a(p, cr 2 )T(y) + C(p, cr 2 )) 


où : 


(crv^TT)" 

C(P, CT 2 ) = 


pxxp 

2cr 2 


Le domaine de définition de y ne dépendant pas de p ni de cr 2 , et le rang de X étant p + 1, 

y'y 


l’application définie par T = 


X'y. 


est bijective. D’après le théorème de Darmois généralisé. 


T(y) constitue une statistique exhaustive. 

b et ct 2 qui sont fonction de T sont donc les estimateurs sans biais de variance minimale 
de p et cr 2 . 
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De plus b transformé linéaire d'un vecteur gaussien est lui-même gaussien. 


beN p+ 1 (P;(X'Xr'cr 2 ) 


17.2.1.3 Lois des côtés du triangle rectangle y, y*, Xp (fig. 17.5) 



Ce triangle est rectangle en y* ; le théorème de Pythagore s'écrit donc : 

IMI 2 = lly - xb|p + ||xb-xpir- 

Or y — Xb = (I — A)e et Xb — Xp = Ae. On a donc ||e || 2 = e'Ae + e'(I — A)e . e est 
un vecteur gaussien où les e, suivent indépendamment des lois LG(0 ; cr). Donc : 


Le théorème de Pythagore se transforme alors en théorème de Cochran et on trouve que: 


l|xp - XbIP 


C~ 


suit un x 




||y - Xb|p 

-ï-suit un XI,-p- 

0 ~ 


et ces deux variables sont indépendantes comme formes quadratiques de rang p + 1 et 
n — p — 1 (rangs de projecteurs) de n variables normales centrées-réduites. 

On peut ainsi obtenir des intervalles de confiance pour o\ 

17.2.1.4 Le modèle (y ; Xp ; 2) 

Par les mêmes procédés on peut montrer que : 

1) b = (X'2 -I X) -1 X'2 _, y est l’estimateur de variance minimale de p parmi les 
estimateurs fonctions linéaires de y (théorème de Gauss-Markov généralisé). 

2) Si l’hypothèse de normalité est vérifiée, b est l’estimateur du maximum de vrai¬ 
semblance et est de variance minimale. 
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17.2.2 Tests dans le modèle linéaire 

/ 7.2.2 .1 Le coefficient de corrélation multiple R 
et l'analyse de variance de la régression 

R est le coefficient de corrélation entre la série y ( , y 2 , . . .. y„ et la série yf. yf.y* En 

d’autres termes, c’est la valeur maximale du coefficient de corrélation linéaire simple entre 
les coordonnées de y et les coordonnées de tout vecteur de la forme Xb (voir chapitre 6). 

Comme tout coefficient de corrélation linéaire, son carré s’interprète en termes de variance 
expliquée : 


2 (y* - y)- - 2(y< ~ yf ) 2 

R 2 = -i-—-d- 

S (y- - y ) 2 


Variance expliquée par la régression 
Variance des y 


Si R 2 = 1, V/ — yf V/ l’ajustement est parfait. 

R 2 est appelé coefficient de détermination. 

Géométriquement R est le cosinus de l’angle formé par y — ÿ et y* — ÿ dans R" où ÿ est 
le vecteur dont toutes les composantes sont égales à y. ÿ est la projection de y sur la droite 
des constantes qui appartient à W (ftg. 17.6). Voir chapitre 6 (§ 6.2). 

ÿ 



D’après le théorème des trois perpendiculaires, est aussi la projection de y* sur la droite 
des constantes. 

Le coefficient R 2 est utilisé pour tester la qualité de l’ajustement de y par y* (analyse de 
variance de la régression). 

Il est facile d’écrire la décomposition classique : 


-Ete-y 

)■ = - E(y< - y; 

V + -2<y? - ÿ) 2 

n i 

n i 

» ï 

Variance 

Variance 

Variance expliquée 

totale 

résiduelle 

par la régression 
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2<V, - y if ~ y) 2 

On sait que —-,-suit Vp une loi x« —» -1 et on peut montrer que —---est 

CT" CT" 

un X/^ si Pi = P 2 = • ■ • = P,, = 0 (P n quelconque). 

Si pi = Bi = ... = = 0, alors — Y(y- — v) 2 suit un y 2 . comme variance d’un 

CT” ; 

échantillon de variables normales de mêmes lois. 

l(y* - y) 2 


Comme 


R 2 


I(y, - yTŸ 


-—, on trouve que si Pi = P 2 = ■ ■ - = P^ = 0 (mais p 0 


quelconque) 


R 2 n 


1 


1 - R 2 


= F(p ; n - p - 1 ) 


On retrouve comme cas particulier la loi du coefficient de corrélation usuel si p — 1. 

Le test du R 2 est le même que celui de la nullité de q coefficients de régression lorsque 
q = p (voir paragr. 17.2.2.3). 

L’hypothèse de non-régression p, = P: = . . . = P /7 = 0 correspond à la nullité de coef¬ 
ficient de corrélation multiple théorique 01 dans le cadre de la régression entre variables 
aléatoires. 

Sous cette hypothèse nulle la loi de 01. est celle d’une variable bêta de type I de paramètre 
p n — p — 1 , . p , 2 (n — p — 1 )p 

- et-—- on en déduit que E(R-) = -et V(R~) = — -. 

2 2 4 n - 1 (n 2 - l)(n - 1) 

Si l’hypothèse de non-régression n'est pas satisfaite ( 01 2 =r= 0), la loi de R 2 ne prend pas 
une forme aussi simple et R 2 est alors un estimateur biaisé de 0l 2 . 


On montre en effet que E(R 2 ) 
ajusté R 2 : 


T- + 


——(1 — 0l 2 ) + 0 — d'où la définition du R 2 
n - 1 \iv 


R 2 


(n — 1) R 2 — p 


n — p — 1 


où le biais en l/n est éliminé mais qui peut conduire à des valeurs négatives si 0ï 2 est 
voisin de 0. 


Un calcul élémentaire montre que cf 2 


n — l 


(1 -R 2 )s 2 , 


17.2.2.2 Test du caractère significatif d*un des coefficients de régression 

Il s’agit de tester = 0 contre [3 ; # 0. 

Soit bj le coefficient de régression empirique. On sait que V{b } ) = cr 2 [(X'X)^ 1 ] où 
((X 7 X)U] est le terme {jj) de la matrice (X'Xff 1 . 





418 


17<m La régression multiple et le modèle linéaire général 


( Y, — y.'*') ~ -, 

Comme ~—— suit un il vient immédiatement que : 


- 3 j) 

(2(y, - if) 2 [(X'X)-!j 


Jn - p - l 


suit un t de Student i\n — p — 1 degrés de liberté, ce qui permet de tester l’hypothèse 
p, = 0, car bj suit une loi LG(P ; , ctV((X'X)^‘]). 


On peut aussi écrire : i 


(bj - Pj) 

f ||y - Xb| j iocxfri 

n — p — 1 


Le dénominateur de l’expression précédente est appelé erreur standard ou écart-type du 
coefficient de régression et désigné par la lettre Sj. {il s’agit en fait de la racine carrée de 
l’estimation sans biais de la variance de bj). 

On prendra garde au fait que les statistiques de test des coefficients de régression ne 
sont pas indépendantes car les bj ne sont pas indépendants. On peut par exemple trouver un 
R 2 significatif sans qu’aucun coefficient de régression pris isolément soit significativement 
différent de zéro (c’est souvent le cas lorsque les prédicteurs sont fortement corrélés entre 
eux, voir exemple plus loin). 


\7.2.2.3 Test de q coefficients de régression , 
test d’une sous-hypothèse linéaire 

Les deux tests précédents ne sont en fait que des cas particuliers du test plus géné¬ 
ral suivant qui permet, entre autres choses, de tester la nullité de q coefficients de 
régression. 

Écrire p, = p 1()l p 2 = p 2n , . .., p f/ = P, /0 n’est qu’un cas particulier de Hp = 0, où H est 
une matrice de rang q. 

Le test de H 0 : Hp = 0 contre H [ : HP # 0 s’effectue alors de la manière suivante : on 
pose y* la solution des moindres carrés y* — X(X'X)~’X'y et y { * la solution des moindres 
carrés sous la contrainte Hp = 0 (on projette sur le sous-espace de W vérifiant cette 
contrainte). 

On montre alors que si fi ü est vraie : 


l|y ~ yo IP ~ Hy - y : 1l 2 n ~ p ~ 1 
l|y - y* II 2 q 


F(q;n - p - 1 ) 


ce qui permet de tester H () . 

Ce test a pour cas particulier le test simultané de tous /es coefficients de régression 

Ho ■ P = Po contre H } : p # p 0 . 
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Comme ||Xp - Xb|| 2 et ||y — Xbjp sont indépendantes, on en déduit que : 
||XP - Xb||- h - p - I 


l|y - xb||- P + i 

on peut donc te; 
est trop grande. 


F(p + 1 , n — p — 1 ) 

En remplaçant p par p o on peut donc tester l’hypothèse nulle. On rejettera H () si la quantité 

||Xpn - y ’"|| 2 n - p - ■ 

||y - y*ll 2 p + i 

Remarque : Ce dernier test suppose également une valeur a priori pour p () . Ce n’est pas 
le test le plus couramment utilisé (qui suppose p 0 inconnu). 

S 7.2.3 Intervalle de prévision pour une valeur future 

Cherchons à encadrer la valeur prévue vif pour un individu supplémentaire pour lequel les 
variables explicatives prennent les valeurs A' U) , x 2t) ,. . ., x pQ . 

I 

-V 

I 

Posons : 


VJ 


alors yif = x ( ',b est une variable aléatoire suivant une loi LG(xôP 0 ; a^x o(X'X) l x 0 ) d’après 
les résultats usuels sur les combinaisons linéaires de variables gaussiennes. 

Comme au chapitre précédent, par studentisation, puisque <r doit être estimé, il vient : 


)’n - Vo 


à F + xi(X'X)-'x 0 


= T, 


II-p — I 


ce qui permet d’encadrer la « vraie valeur » y 0 . 

L’intervalle de confiance pour E(Y/X — .v 0 ) s’obtient en enlevant le 1 sous le radical. 


17.3 L’ANALYSE DES RÉSULTATS 

Les principaux problèmes abordés ici concernent la stabilité des résultats d’une régression. 
On distinguera les questions relatives à l’influence d’observations particulières et celles 
relatives à l’influence des variables sur les estimations (multicolinéarité). L’analyse des rési¬ 
dus est également un moyen de vérifier les hypothèses de base du modèle. 

17.3.1 L’étude des résidus et des observations influentes 

L’étude des résidus y,- — vf est fondamentale à plus d’un titre : elle permet tout d’abord 
de repérer des observations éventuellement aberrantes ou des observations qui jouent un rôle 
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important dans la détermination de la régression. Ensuite l’étude des résidus est bien souvent 1 ® 
la seule façon de vérifier empiriquement le bien-fondé des hypothèses du modèle : linéarité 
homoscédasticité. etc. : les graphes des résidus en fonction des variables explicatives ne 
doivent laisser apparaître aucune tendance. 

Il est facile d’obtenir la matrice de variance des résidus puisque y = y — Xb -f Xb où 
y - Xb est orthogonal à Xb d’où V(y) = V(y — Xb) + V'tXh) soit : 

cr 2 I„ = V(y - Xb) + o- 2 X(X'X)-'X' 

d’où : V(y - Xb) = <r 2 (F - X(X'Xr'X') 

ce qui rappelle que les résidus sont en général corrélés entre eux. 

En désignant par h, le ri me terme diagonal du projecteur X(X'X) -I X' on a : 

l'O’f - y?) = (1 - hj)(J 2 (où - < /;; < 1 avec 2 h, = p + 1 ) 

d’où l’estimation de la variance du résidu : 

V(Vi ~ y?) = ri 2 (l - h,) 

On appelle résidu studentisé la quantité : 



Lorsque n est grand les résidus studentisés doivent rester compris entre —2 et 2. 

Un fort résidu peut indiquer une valeur aberrante. Cependant une valeur peut être aberrante 
sans que son résidu soit important (voir fig. 17.7). 



Figure 17.7 


Il faut alors étudier l’influence de chaque observation sur les résultats. 

On peut tout d’abord étudier l’influence d’une observation sur sa propre prédiction. 

On appelle résidu prédit l’écart v, — yf_ 0 où yfi/) est la prévision obtenue avec 
l’échantillon de (n - 1) observations excluant la ri™. 
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y. — y 7 

On peut vérifier que le résidu prédit vaut - -— : il convient donc d’être prudent avec 

1 - h -, 

des observations dont le /;,■ serait grand. La quantité suivante notée Press est une mesure du 
pouvoir prédictif du modèle : 


Press- iyM? 

!'=l 1=1 U n i> 


On peut enfin étudier l’influence d’une observation sur les estimations bj des coefficients 
de régression et calculer par exemple une distance entre b et b ( _ ;) où b ( _ /} est l’estimation de 
P obtenue sans la / e,ne observation. 


La distance de Cook est l’une des plus utilisées : 


(b - b ( _ 0 )'(X'X)(b - bf-,-)) 

(P + 1 )( 7 2 


On montre que : Z), = —— r 2 - - — 

p + 1 1 — 

= l|y ;>; ~ yf-oll 2 

(p + î )cj : 

ou y ( t 0 = Xb ( _ 0 . 

Une distance D, supérieure à 1 indique en général une influence anormale (cf Cook- 
Weisberg, 1982). 


17.3.2 La stabilité des coefficients de régression 

L’écart-type Sj du coefficient bj est déjà un indicateur du caractère plus ou moins stable de 
l’estimation d’un coefficient. Il est clair que si Sj est du même ordre de grandeur que bp ce 
dernier est mal déterminé. 

La source principale d’instabilité dans l’estimation de p est la multicolinéarité : on 
désigne par cette expression la situation où les variables explicatives sont très corrélées 
entre elles. 

Comme L(b) = (X'X) -1 o- 2 , si les prédicteurs sont très corrélés entre eux X'X est mal 
conditionnée (déterminant proche de 0) et son inverse aura des termes élevés. 

Dans ce cas les paramètres du modèle seront estimés avec imprécision et les prédictions 
pourront être entachés d’erreurs considérables même si R 2 a une valeur élevée. 

Il est donc important de mesurer l’effet de la colinéarité entre les prédicteurs, cela s’effec¬ 
tue au moyen des facteurs d’inflation de la variance et des valeurs propres de la matrice de 
corrélation. 

Il sera commode pour la suite de supposer que toutes les variables sont centrées et réduites 
(ce qui ne change pas le R 2 ni les valeurs prévues) et que l’on effectue donc une régression sans 
constante : (X'X) est donc une matrice de taille p et b un vecteur à p composantes. On a donc 
(X'X) - nR où R est la matrice de corrélation entre les prédicteurs. 
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1 7.3.2. I Le facteur d'inflation de la variance (VIF) 

D I fj2 

On a donc : V(b) = cr 2 - et V(b:) = —(R -1 ) :. 

n n 

1 

Or (R )jj , j c terme diagonal de R 1 n’est autre que — où Rj est le carré du coefficient 

* — ./ 

de corrélation multiple de x J avec les p — 1 autres variables explicatives. 

Si les p variables explicatives étaient orthogonales la régression multiple reviendrait 

CT" 

à p régressions simples ; V(/;.) serait égal à —. 

71 

Le terme - - est appelé « facteur d’inflation de la variance » tandis que 1 — Rj est 

^ Rj 

appelé « tolérance ». La moyenne des p facteurs d’inflation est utilisée parfois comme 
indice global de multicolinéarité. 

1 7.3.2.2 Le rôle des valeurs propres de R 

Posons R = UAU' où A est la matrice diagonale des valeurs propres et U la matrice des 
vecteurs propres de R. 

On a donc R -1 = UA^'U'. 

0 "~ ? (u ik f 

On en déduit : V(Z?.-) = — ^ —— 

n kT= \ 

On voit donc que V{bj) dépend des inverses de valeurs propres de R : lorsqu’il y a forte 
colinéarité entre les prédicteurs les dernières valeurs propres sont proches de zéro d’où 
l’instabilité des bj. 


17.4 SÉLECTION DE VARIABLES 

Plutôt que de chercher à expliquer y par toutes les p variables explicatives, on peut 
chercher seulement un ensemble de q variables parmi les p qui donne une reconstitution 
presque aussi satisfaisante de y. 

Les objectifs d’une telle démarche sont multiples : économiser le nombre de prédicteurs, obte¬ 
nir des formules stables et d’un bon pouvoir prédictif en éliminant des variables redondantes qui 
augmentent le facteur d’inflation de la variance, obtenir un modèle plus facile à interpréter. 

17.4.1 Les critères de choix 

Ils dépendent bien sûr des usages que l’on fait de la régression : reconstitution des y,-, 
prévision de valeurs futures, ou estimation précise des paramètres d’un modèle. 

Le critère du R 2 est bien adapté au premier objectif et est celui qui est le plus utilisé dans 
les programmes de régression pas à pas. Il n’est cependant pas à l’abri des critiques : il varie 
de façon monotone avec le nombre des variables : il ne peut qu’augmenter si l’on rajoute un 
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prédicteur même peu corrélé avec y puisque la dimension de W augmente. On ne peut donc 
['utiliser pour choisir la taille d’un sous-ensemble de prédicteurs. 

Si l’objectif est de minimiser l’erreur de prévision le R 1 n’est pas adapté et on préférera 
des critères tels que le à 2 ou le Press. 

à 2 ne varie pas de façon monotone avec le nombre de variables car : 

â 2 =- j --(1 -R 2 )s 2 . 

n k — 1 

Par contre ct 2 varie de façon monotone avec le R 2 ajusté R 2 . Il est donc plus intéressant 
de prendre R 2 que R 2 comme critère de qualité, ce qui permet de comparer des formules de 
régression comprenant des nombres différents de variables et de choisir celle qui minimise 
<j 2 (ou maximise R 1 ). On peut également utiliser les critères, informationnels A1C et BIC, 
voir chapitre 19. 

17.4.2 Les techniques de sélection 

17.4.2.1 Recherche exhaustive 

Lorsque p n’est pas trop grand on peut étudier toutes les formules possibles : 
formules à k variables et donc 2 P — 1 régressions. 

A p fixé on choisira celle qui fournit le R? maximum, et si p n’est pas fixé celle 
nit le ex 2 minimum, ou le minimum d'autres critères (voir chapitre 19, § 19.4). 

17.4.2.2 Les méthodes de pas à pas 

Elles sont utilisées lorsque p est élevé et qu’il n’est pas possible de procéder à une recherche 
exhaustive. 

Elles procèdent par élimination successive ou ajout successif de variables. 

La méthode descendante consiste à éliminer la variable la moins significative parmi 
les p : en général celle qui provoque la diminution la plus faible des R 2 (c’est celle qui a 
le t de Student le moins significatif). On recalcule alors la régression et on recommence 
jusqu’à élimination de p — l variables ou en fonction d’un test d’arrêt. 

La méthode ascendante procède en sens inverse : on part de la meilleure régression à une 
variable et on ajoute celle qui fait progresser le plus le R 2 . 

La méthode dite stepwise est un perfectionnement de l’algorithme précédent qui 
consiste à effectuer en plus à chaque pas des tests de signification du type Student ou F 
pour ne pas introduire une variable non significative et pour éliminer éventuellement des 
variables déjà introduites qui ne seraient plus informatives compte tenu de la dernière 
variable sélectionnée. L’algorithme s’arrête quand on ne peut plus ajouter ni retrancher 
de variables. 

Ces méthodes ne donnent pas forcément les meilleures régressions à k variables ni 
les mêmes résultats si l’on les emploie en concurrence, mais elles sont très pratiques 
d’emploi, la méthode stepwise semblant la meilleure. Elles ne mettent cependant pas à 
l’abri de l’élimination intempestive de variables réellement significatives, ce qui risque 
de biaiser les résultats. Il faut à ce propos rappeler que si l’on sait (par un modèle 


il y a C* 
qui four- 
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physique par exemple) qu'une variable doit figurer dans un modèle, ce n'est pas parce 
qu’un test statistique la déclare non significative qu’il faut la rejeter (erreur de deuxième 
espèce). 

17.5 TRAITEMENT DE LA MULTICOLSNÉARSTÉ 

Lorsque les variables explicatives sont fortement corrélées entre elles, les variances des 
coefficients de régression deviennent très élevées : les estimations sont donc imprécises. En 
effet le déterminant de la matrice X'X est alors proche de 0, d’où des valeurs instables pour 
V(b) = ct 2 (X , X) _i . 

Ceci se produit entre autres si le nombre d’observations est faible devant le nombre de 
variables. Un cas extrême autrefois banni des manuels, est celui où le nombre de variables 
est supérieur au nombre d’observations : X'X n’est alors pas inversible. 

Les méthodes de sélection de variables sont une des réponses possibles au problème de la mul- " 
dcolinéarité, mais elles peuvent conduire à l’élimination de variables significativement liées à y. 

Il est alors difficile de proposer à l’utilisateur un modèle qui ne tient pas compte de variables 
pourtant influentes et ne permet pas de quantifier l’effet de leurs variations sur la réponse y. 

Les trois méthodes que nous présentons maintenant permettent de résoudre ce problème et 
même de traiter le cas où p > n. Ceci se fait au prix de la perte de certaines propriétés comme 
l’absence de biais des estimateurs et l’invariance par changement d’échelle : sur un plan 
technique on procédera à une standardisation préalable des variables par centrage-réduction. 

D’après le théorème de Gauss-Markov, la méthode des moindres carrés fournit les 
estimateurs de variance minimale des (3y parmi les estimateurs sans biais. On ne pourra 
donc diminuer la variance des estimateurs qu’en utilisant des estimateurs biaisés. 
Comme l’erreur quadratique est égale à la variance plus le carré du biais, il est possible 
dans certaines conditions d’obtenir des estimations plus précises des coefficients avec un 
léger biais. 


17.5.1 Régression sur composantes principales 


D’après la formule établie au paragraphe 17.3.2.2 on diminuera V{b } ) en ne retenant que 
certains termes de la somme des 


Ceci revient à la pratique suivante : on remplace les p variables explicatives par leurs p 
composantes principales qui engendrent le même espace Vf, et on effectue la régression sur 
les composantes principales ce qui revient à p régressions simples : 


y 


* 



OU OLj ~ 


r(y ; c j)s. 


Quand il y a exacte colinéarité k p = 0 on obtient alors une solution des équations normales 
/<- i 

avec y* = ^ cLfo. 


j= i 
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Si l’on ne retient que k composantes principales en éliminant celles de faibles variances 
on aura une solution approchée en projetant y sur un sous-espace de W. 

U suffit alors d’exprimer les cen fonction des variables initiales pour obtenir une formule 
de régression. 

On notera que les composantes principales de forte variance ne sont pas nécessairement 
les plus explicatives et qu’il vaut mieux les ordonner en fonction de leurs corrélations avec y. 
Par ailleurs les composantes principales de variance proche de zéro Fournissent les relations 
linéaires approchées existant entre les prédicteurs. 


17.5.2 La régression « ridge » 

Hoerl et Kennard en 1970 ont proposé de prendre comme estimateur : 

b* = (x'x + jar 1 x'y 

où k est une constante positive que l’on ajoute aux termes diagonaux de X'X et qui permet 
d’inverser la matrice sans difficulté numérique. 

® Diminution de l’erreur quadratique. Il existe des valeurs de k telles que l’erreur qua¬ 
dratique de l’estimation de (3 est inférieure à celle des moindres carrés au sens où : 


- P" 2 ) s £ (i 6 - pif) = 

En effet Teneur quadratique est égale à la variance augmentée du carré du biais : dans cer¬ 
taines circonstances un léger biais peut être plus que compensé par une faible variance d’où une 
erreur quadratique inférieure à la variance de l’estimateur sans biais de variance minimale. 

La démonstration se fait aisément pour la régression simple (cf. Birkes et Dodge 1993) : 

Considérons le modèle Y = a + px + e où les x, sont centrés : dans ces conditions les esti- 

- Sx g',- 

mateurs des moindres carrés sont à = y et [3 = V - 

E.*- 

Soit [3,; = c(3 un estimateur « rétréci » avec 0 < c < 1. 

L’erreur quadratique de l’estimateur rétréci vaut : 


-, CT" 


£((c[3 - p) 2 ) = V(c\ 3) + (E{c\ 3) - P) 2 = c 2 V( P) + (c - l) 2 p 2 = c 2 ^ + (c - l) 2 p 2 

Z-L’¬ 


En annulant la dérivée par rapport à c, on trouve que le minimum est atteint pour 


c = 


P : 


^ cr 

P + ^ 

Zxr 


d’où p w 


2.V/.V,- 


v , . o- 
Z.v'r + —r 
P 2 


- ce qui revient à une régression ridge avec une con¬ 


stante k ésaie h k = —. 

p 2 
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Évidemment (3, a et donc la valeur optimale de k sont inconnus, mais le résultat est prouvé : : 
il existe bien un estimateur rétréci d’erreur quadratique inférieure à la variance de l’estimateur .3; 
des moindres carrés. 

® Régression à coefficients bornés. Dans le cas de la régression multiple, on obtient 
l’estimateur ridge comme solution du problème suivant consistant à trouver des coeffi¬ 
cients de régression bornés : 

minj|y — Xb|| 2 sous ||b|p < c 2 

il s’agit donc de régulariser la solution pour éviter des coefficients instables. 

Le problème de minimisation sous contrainte est équivalent à : min ( ||y — Xb[| 2 + A-|(b[| 2 ) 
avec un multiplicateur de Lagrange k. En annulant la dérivée par rapport à b, on a : 
2X'Xb - 2X'y H- 2kb = 0 soit (X'X + Aï)b = X'y d’où le résultat. 

• Régression bayésienne. Le point de vue bayésïen donne également une justification 
éclairante de la régression ridge : On se donne une distribution a priori gaussienne sur p 
7V(0 ; t|r I) et on suppose que la loi des Y/P est une gaussienne ;V(Xp ; ct 2 I). Un calcul sim¬ 
ple montre que la loi a posteriori de p/Y est une gaussienne dont la densité est telle que 
(à une constante près) : 


ln(/(P/y)) = - 


1 (y - XpV(y - XP) 

2 cr 2 


IFP 

2 i|r 


La valeur la plus probable a posteriori , qui est ici aussi l’espérance a posteriori , est alors : 
- / cr 2 V 1 

P = |^X'X + —IJ X'y. D’où la signification de k comme un rapport de variances. 

La valeur de k restant inconnue, une pratique courante consiste à étudier les variations 
des coefficients de régression selon k et à choisir une valeur donnant des coefficients 
stables : k = 0 n’étant autre que la solution des moindres carrés, au vu d’un gra¬ 
phique appelé « Trace Ridge ». Compte tenu du caractère subjectif de cette méthode, il est 
préférable de choisir k par validation croisée : on divise les données en s sous-ensembles 
disjoints, chaque sous ensemble est prédit à l’aide du regroupement des — 1 autres et on 
cherche la valeur de k qui miminise la somme des carrés des erreurs. 


17.5.3 La régression P LS 

Proposée par H. et S. Wold, étudiée par M. Tenenhaus, la régression PLS est proche de 
la régression sur composantes principales en ce qu’elle effectue une projection sur des 
combinaisons linéaires des prédicteurs non corrélées entre elles, mais avec la différence 
essentielle que les composantes PLS sont optimisées pour être prédictives de P, alors que 
les composantes principales ne font qu’extraire le maximum de variance des prédicteurs 
sans tenir compte de Y. 
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Le critère de détermination des composantes PLS est le critère de Tucker, basé sur la 

covariance : 

max cov 2 (y ; X\v) 

p 

Posons tj = n'|,Xj + u’ )2 x 2 + • • • + vv^x,, avec 2 117 ) = 1 

j= i 

Maximiser la covariance aboutit à un compromis entre maximiser la corrélation entre f, et y 
(régression des moindres carrés ordinaires) et maximiser la variance de tj (ACP des prédic¬ 
teurs) puisque : 


cov 2 (y ; X\v) = 7- : (y ; Xw) V(Xw) V(y) 


et que V(y) est fixé. 

La solution est élémentaire : les sont proportionnels aux covariances cov(y ; Xj) : les 
coefficients sont donc du même signe que les corrélations simples entre y et les Xj ; il ne peut 
donc y avoir de signes surprenants. 

La régression PLS avec une composante s'écrit alors sous la forme y = qt, + y[ 

On obtient ensuite la deuxième composante PLS t 2 en itérant le procédé : on effectue la 
régression de y, sur les résidus des régressions des Xj avec t, puis on écrit y = c,t, 4- c 2 t 2 + y 2 
etc. 

Le nombre de composantes PLS est en général choisi par validation croisée. 

On montre aisément que la première composante PLS est toujours plus corrélée avec y 
que la première composante principale : 

En effet soit Cj la première composante principale : 

cov(y ; t,) = r(y ; t^o-f^My) > cov(y ; c,) = r(y ; c,)(r(c,)(r(y) 
donc ;•(y ; t,)a(tj) > r (y ; c,)a(c,) 

comme c, est la première composante principale, sa variance est maximale : 

cr(c,) > crfti) d'où r(y ; tj) > r(y ; c,) 

La propriété reste vraie pour plus d’une composante, c’est à dire que la régression PLS 
avec k composantes est toujours meilleure que la régression sur les k premières composantes 
principales mais la démonstration est difficile (De Jong, 1993). 

Un des grands avantages de la régression PLS réside dans la simplicité de son algorithme 
qui ne nécessite ni inversion, ni diagonalisation de matrices, mais seulement une succession 
de régressions simples, autrement dit des calculs de produits scalaires. On peut donc traiter 
de très grands ensembles de données. 

L’expérience montre que la régression PLS donne en pratique d’excellentes prévi¬ 
sions, même dans le cas d’un petit nombre d’observations et d’un grand nombre de 
variables. 
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La régression dite PLS2 est une alternative à l’analyse canonique lorsque l’on cherche à 
expliquer simultanément plusieurs réponses Y. Le critère de Tucker s’écrit alors : 

Max cov 2 (Y v ; X w ) = r 2 (Y v ; XJ • V(Y v )- V(X W ) 


Il est facile de montrer que la première composante PLS des X est vecteur propre de y p y 
(voir chapitre S) 


17.6 UN EXEMPLE 


On se propose d’étudier 1a relation existant entre le prix et les variables suivantes : 
cylindrée, puissance, longueur, largeur, poids et vitesse de pointe de 18 voitures figurant 
dans le tableau 17.1 : 


Tableau 17.1 


OBS 

NOM 

CYL 

PUIS 

LON 

LAR 

POIDS 

VITESSE 

FINITION 

PRIX 

1 

ALFAS UD-TI-13 5 0 

1350 

79 

393 

161 

870 

165 

B 

30570 

9 

AUDI-100-L 

1588 

85 

468 

177 

1110 

160 

TB 

39990 

3 

SIMCA-1307-GLS 

1294 

68 

424 

168 

1050 

152 

M 

29600 

4 

CITROEH-GS-CLUB 

1222 

59 

412 

161 

930 

151 

M 

28250 

5 

FIAT-13 2-16 0 OGLS 

1585 

98 

439 

164 

1105 

165 

B 

34900 

6 

LANCIA-BETA-1300 

1297 

82 

429 

169 

1080 

160 

TB 

35480 

7 

PEUGEOT-504 

1796 

79 

44 9 

169 

1160 

154 

B 

32300 

8 

RENAULT-16-TL 

1565 

55 

424 

163 

1010 

14 0 

B 

32000 

9 

RENAULT-30-TS 

2664 

128 

4 52 

173 

13 20 

180 

TB 

47700 

10 

TOYOTA-COROLLA 

1166 

55 

399 

157 

815 

140 

M 

26540 

11 

ALFSTTA-1.66 

1570 

109 

428 

162 

1060 

175 

TB 

42 3 95 

1 9 

PRINCESS-13 00-HL 

1798 

82 

445 

172 

11 60 

158 

B 

33990 

13 

DATSUN-200L 

1998 

115 

4 69 

169 

1370 

160 

TB 

43980 

14 

TAUNUS-2000-GL 

1993 

98 

438 

170 

1080 

167 

B 

35010 

15 

RANCHO 

144 2 

80 

431 

166 

1129 

144 

TB 

39450 

16 

MAZDA-9295 

1769 

83 

440 

165 

1095 

165 

M 

27900 

17 

OPEL-REKORD-L 

1979 

100 

459 

173 

1120 

173 

B 

32700 

18 

LADA-1300 

1294 

68 

404 

161 

955 

140 

M 

22100 


17.6.1 Résultats de la régression complète 

Les calculs ont été effectués avec le logiciel SAS. 
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/ 7.6. I. I Analyse de variance de la régression 

On trouve (tableau 17.2) : 

Tableau 17.2 



DDL 

SOMME DE CARRES 

CARRE MOYEN 

F 

PROB > F 

REGRESSION 

6 

520591932.37 

86765322.06 

4.469 

0.0156 

RESIDUELLE 

11 

213563857.91 

19414896.17 



TOTALE 

17 

734155790.28 





Comme F s % (6 ; 11) = 3.09 on rejette l’hypothèse : (3| = [3 2 = . .. = (3 (l = 0. 

R 2 = 0.7091 et R 2 = 0.5504 
â = 4406.2 

17.6.1.2 Estimation des paramètres (tableau 17.3) 


Tableau 17.3 



COEFFICIENT 


T SI H0 : 


FACTEUR 

VARIABLE 

ESTIME 

ECART-TYPE 

COEFF. = 0 

PROB > | T 1 

D'INFLATION 

CONSTANTE 

-8239.36 

42718.423 

-0.193 

0.850 

0 

CYLINDREE 

-3 . 505 

5.55 

-0.631 

0.54 0 

3.772 

PUISSANCE 

282.168 

174.882 

1.613 

0.134 

11.118 

LONGUEUR 

-15.037 

129.747 

-0.116 

Ü . 909 

7.204 

LARGEUR 

208.693 

412.047 

0.506 

0.622 

4.197 

POIDS 

12.574 

24.622 

0.511 

0.619 

9.957 

VITESSE 

-111.114 

222.256 

-0.500 

0.627 

6 . 375 


On constate qu’au seuil 10 % aucun des coefficients n’est significativement différent 
de 0 et que certains sont négatifs alors que les corrélations entre le prix et les prédic¬ 
teurs pris isolément sont significativement positifs. Ce phénomène est dû à la forte 
dépendance entre les prédicteurs (voir également les valeurs du facteur d'inflation de la 
variance). 

Ci-après tableau 17.4 la matrice de corrélation entre les 7 variables : 


Tableau 17.4 



CYL 

PUIS 

LON 

LAR 

POIDS 

VITESSE 

PRIX 

CYL 

1.00000 

0.79663 

0.70146 

0.62976 

0.78895 

0.66493 

0.63858 

PUIS 

0.79663 

1.00000 

0.64136 

0.52083 

0.76529 

0.84438 

0.79870 

LOM 

0.70146 

0.64136 

1.00000 

0.84927 

0.86809 

0.47593 

0.64376 

LAR 

0.62976 

0.52083 

0.84927 

1.00000 

0.71687 

0.47295 

0.54665 

POIDS 

0.78895 

0.76529 

0.86809 

0.71687 

1.00000 

0.47760 

0.75329 

VITESSE 

0.66493 

0.84438 

0.47593 

0.47295 

0.47760 

1.00000 

0.58176 

PRIX 

0.63858 

0.79870 

0.64376 

0.54665 

0.75329 

0.58176 

1.00000 
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/ 7.6.1.3 Étude des résidus et de l’influence des observations 

Le tableau 17.5 contient les informations essentielles. 


Tableau 17.5 





PRIX 


E-TYPE 

LIMITE 

limite 



PRIX 

ESTIM 

.E 

PREDICT 

INF 95 % 

SUP 95 % 

1 

ALFASUD- 

30570.0 

29616 

i 

2914.0 

17989.0 

41243.2 

2 

AUDI-100 

39990.0 

36259 

7 

3572.5 

23774.4 

48744.9 

3 

SIMCA-13 

29600.0 

31411 

1 

2486.0 

20276.0 

42546.3 

4 

CITROEN- 

28250.0 

26445 

8 

2259.2 

15547.2 

37344.3 

5 

FIAT-132 

34900.0 

37043 

0 

2160.8 

26241.5 

47844.5 

6 

LANCIA-B 

35480.0 

34972 

8 

2707.1 

23590.6 

46355.0 

7 

PEUGEOT- 

32300.0 

33749 

1 

19 45.4 

23147.9 

44350.4 

a 

RENAULT- 

32000.0 

26580 

0 

2760.8 

15135.4 

38024.5 

9 

RENAULT- 

47700.0 

44445 

6 

3683.5 

31805.1 

57086.0 

10 

TOYOTA-C 

26540.0 

24650 

2 

303 3.9 

12368.0 

36432.5. 

11 

ALFETTA- 

42395.0 

38270 

5 

3006.8 

26529.5 

50011.5 

12 

PRINCESS 

33990.0 

34830 

4 

2018.2 

24163.4 

45497.4 

13 

DATSUM-2 

43980.0 

44872 

4 

3343.6 

32698.2 

57046.6 

14 

TAUNUS-2 

35010.0 

3 63 43 

5 

2320.9 

25382.3 

47304.7 

15 

RAMCHO 

39450.0 

35638 

1 

2453.2 

24538.2 

46737.9 

16 

MAZDA-92 

27900.0 

32233 

4 

2726.5 

20828.8 

43638.0 

17 

OPEL-REK 

32700.0 

37103 

5 

2535.7 

25914.1 

48292.9 

18 

LADA-130 

22100.0 

30389 

8 

2755.1 

18952.0 

41827.6 




E-TYPE 

RESIDU 

DISTANCE 




RESIDU 

DU REE 

;id 

STUDENT. 

DE COOK 

H 

1 

ALFASUD- 

953.8913 

3305. 

1 

0.2886 

0.009 

0.4374 

2 

AUDI-100 

3730.3 

2579 . 

2 

1.4463 

0.573 

0.6574 

3 

SIMCA-13 

-1811.1 

3637. 

9 

-0.49785 

0.017 

0.3183 

4 

CITROEN- 

1804.2 

3783 . 

0 

0.4769 

0.012 

0.2629 

5 

FIAT-132 

-2143 

3840 . 

0 

-.558071 

0.014 

0.2405 

6 

LANCIA-B 

507.1657 

3476 . 

6 

0.1459 

0.002 

0.3775 

7 

PEUGEOT- 

-1449.1 

3953 . 

5 

- .366544 

0.005 

0.1949 

8 

RENAULT- 

5420.0 

3434 . 

1_ 

1.5783 

0.230 

0.3926 

9 

RENAULT- 

3254.4 

2418 . 

0 

1.3459 

0.600 

0.6988 

10 

TOYOTA-C 

1889.8 

3189 . 

6 

0.5925 

0.046 

0.4760 

11 

ALFETTA- 

4124.5 

3220 . 

3 

1.2806 

0.204 

0.4657 

12 

PRINCESS 

-840.42 

3916. 

9 

- .214564 

0.002 

0.2098 

13 

DATSUN-2 

-892.42 

2869 . 

7 

- . 310978 

0.019 

0.5758 

14 

TAUNUS-2 

-1333.5 

3745 - 

4 

-.356029 

0.007 

0.2774 

15 

RANCHO 

3811.9 

3660. 

1. 

1.0415 

0.070 

0.3100 

16 

MAZDA-92 

-4333.4 

3461. 

4 

-1.2519 

0.139 

0.3829 

17 

OPEL-REK 

-4403.5 

3603 . 

5 

-1.222 

0.106 

0.3312 

18 

LADA-130 

-8289.8 

3438 . 

7 

-2.4108 

0.533 

0.3910 



Press = 732 726 946 

et 

. 1 Press 

y -= 6380.21 
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Seul le véhicule n° 18 (le moins cher) présente un résidu studentisé anormalement grand, 

P + l' 


mais semble avoir une influence normale I le h f moyen vaut 0.39 = 


Par contre, le véhicule n° 9 (le plus puissant et le plus cher) semble contribuer fortement 
à la détermination des paramètres. 


17.6.2 Recherche d’un modèle restreint 

Avec 6 prédicteurs, il y avait 63 modèles possibles. Nous donnons ici les meilleurs 
modèles à 1, 2, 3, 4, 5, 6 variables (tableau 17.6) : 


Tableau 17.6 


k 

Modèle 

R 2 

â 

1 

Puis 

0.638 

4076.0 

2 

Puis. Poids 

0.686 

3916.4 

3 

Cyl. Puis. Poids 

Q.699 

3974.4 

4 

Cyi. Puis. Lara. Poids 

0.702 

4103.7 

5 

Cyi. Puis. Larg. Poids Vitesse 

0.709 

4221.2 

6 

Complet 

0.709 

4406.2 


On constate que le meilleur modèle au sens de â est celui à deux variables (Puissance et 
Poids) qui fournira les prévisions les plus précises. 

Les meilleurs modèles étant emboîtés les diverses techniques de sélection pas à pas 
donnent ici les mêmes résultats et conduisent au même choix. 

Nous reproduisons ci-dessous des sorties de la procédure Stepwise du logiciel SAS. 

SLENTRY et SLSTAY sont les seuils de signification des tests F d’admission et d’élimi¬ 
nation des variables. 

La quantité Type II SS représente la perte de somme des carrés expliquée encourue en 
éliminant la variable correspondante (tableau 17.7). 

Le tableau 17.8 montre une amélioration très nette des prévisions en n’utilisant que deux 
variables au lieu de 6. 




Tableau 17.7 


STEPWISE REGRESSION PROCEDURE FOR DEPENDENT VARIABLE PRIX 
NOTE: SLENTRY AND SLSTAY HAVE BEEN SET TO .15 FOR THE STEPWISE TECHNIQUE. 

STEP 1 VARIABLE PUIS EMTERED R SQUARE = 0.63792233 C(P) = -0.30837792 

DF SUM OF SQUARES MEAN SQUARE F PROB > F 

REGRESSION 1 468334369.05604458 468334369.05604458 28.19 0.0001 

ERROR 16 265821421.22173311 16613838.82635832 

TOTAL 17 734155790.27777768 

B VALUE STD ERROR TYPE II SS F PROB > F 

INTERCEPT 12363.65292131 

PUIS 257.58978819 48.51607106 468334369.05604458 28.19 0.0001 

BOUNDS ON CONDITION NUMBER : 1, 1 


STEP 2 VARIABLE POIDS EMTERED R SQUARE 

= 0.68662695 C(P) 

= -0.15009700 




DF 

SUM OF SQUARES 

MEAN SQUARE 

F 

PROB > F 

REGRESSION 

2 

504091153.79100612 

252045576.89550306 

16.43 

0.0002 

ERROR 

15 

230064636.48677157 

15337642.43245144 



TOTAL 

17 

734155790.27777768 





B VALUE 

STD ERROR 

TYPE II SS 

F 

PROB > F 

INTERCEPT 

1775.60120140 





PUIS 

172.96722456 

72.41999846 

87492176.38742225 

5.70 

0.0305 

POIDS 

16.45116100 

10.77448763 

35756784.73496154 

2.33 

0.1476 

BOUNDS ON CONDITION NUMBER : 

2.413555, 9. 

654219 





NO OTHER VARIABLES MET THE 0.1500 SIGNIFICANCE LEVEE FOR ENTRY INTO THE MODEL. 






Tableau 17.8 




PREDICT 

LOWER 95 % 

UPPER 95 % 


STD ERR 

STUDENT 

COOK ' S 

OBS 

ACTUAL 

VALUE 

PREDICT 

PREDICT 

RESIDUAL 

RESIDUAL 

RESIDUAL 

D 

1 

30570.0 

29752.5 

20216.1 

39289.0 

817.4780 

3264.5 

0.2504 

0.009 

2 

39990.0 

34738.6 

26136.2 

43341.0 

5251.4 

37 92.9 

1.3845 

0.042 

3 

29600.0 

30811.1 

21981.3 

39640.9 

-1211.1 

3676.1 

- .329448 

0.005 

4 

28250.0 

27280.2 

18325.9 

36234.6 

969.7528 

3609.2 

0.2687 

0.004 

5 

34900.0 

36904.9 

28171.0 

45638.9 

-2004.9 

3726.2 

- .538066 

0.010 

6 

35480.0 

33726.2 

25139.5 

42312.8 

1753.8 

3800.8 

0.4614 

0.004 

7 

32300.0 

34523.4 

25565.3 

434 81.4 

—2223.4 

3607.2 

-.616371 

0.023 

8 

32000.0 

27904.5 

18637.2 

37171.7 

4095.5 

3430.9 

1.1937 

0.144 

9 

47700.0 

45630.9 

36023.3 

55238.5 

2069.1 

3218.3 

0.6429 

0.066 

10 

26540.0 

24696.5 

15275.0 

34118.0 

1843.5 

3 3 3 7.1. 

0.5524 

0.038 

11 

42395.0 

38067.3 

28559.2 

47575.3 

4327.7 

3282.7 

1.3183 

0.245 

12 

33990.0 

35042.3 

26191.4 

43893.1 

-1052.3 

3665.0 

-.287114 

0.004 

13 

43980.0 

44204.9 

34599.8 

53810.0 

-224.92 

3219.9 

- . 069854 

0.001 

T A 

35010.0 

36493.6 

27676.7 

4 5310.5 

-1483.6 

3682.9 

- .402845 

0.007 

15 

39450.0 

34186.3 

25431.9 

42940.7 

5263.7 

3715.6 

1.4166 

0.074 

16 

27900.0 

34145.9 

25549.9 

42741.9 

-6245.9 

3796.1 

-1.6453 

0.058 

17 

32700.0 

37497.6 

28742 . G 

4 62 52.6 

-4797.6 

3715.3 

-1 .2913 

0.062 

18 

22100.0 

29248.2 

20470.3 

38026.1 

-7148.2 

3703.4 

-1 . 9302 

0.147 
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La statistique Press vaut maintenant 308 496 438 (elle est donc réduite dans un rapport 

V Press 

—— = 4139.9. 

Si l’on souhaite une formule contenant les 6 prédicteurs, on a le choix entre la régression 
ridge, la régression sur composantes principales et la régression PLS. 

a Régression ridge 

Le tableau 17.9 et la figure 17.8 donnent l’évolution des coefficients de régression en 
fonction du paramètre k La valeur k = 0.25 semble convenir et donne un RMSE de 4706. 


Tableau 17.9 Coefficients de Régression 


K 


cylindrée 

puis 

sance 

longueur 

largeur 

poids 

vitesse 

0 

. 0 

-3 

, 50518 

282 . 

.169 

-15 

.0377 

2 08. 

. 694 

13 . 

. 5747 

-111. 

. 114 

0 

.05 

— 2 

.18019 

197. 

.405 

? 

.76652 

108. 

.987 

15 . 

. 2924 

-2 6. 

,2437 

0 

.1 

—i 

.30002 

163 . 

. 095 

12 

. 6414 

78 . 

.4137 

14 

. 811 

3 

. 09658 

0 

. 15 

-0 

.693863 

142 . 

.962 

18 

.2783 

67 , 

.2553 

14 

.0478 

18 

.3139 

0 

. 2 

-0 

,255884 

129 . 

. 251 

21 

.7857 

63 . 

.497 

13 

,3264 

27 

. 6233 

0 

.25 

0 

. 0724271 

119 . 

. 112 

24 

. 1123 

62 . 

. 9383 

12 

. 6918 

33 

. 8481 

0 

.3 

0 

.325527 

111. 

.21 

25 

.727 

63 , 

.8295 

12 

. 1402 

38 

.2416 

0 

.35 

0 

.524946 

104 , 

. 817 

26 

. 8832 

65 . 

.3631 

11 

. 6592 

41 

.4531 

0 

. 4 

0 

. 684805 

99, 

.501 

27 

.7286 

67 

.1422 

11 

.2366 

43 

. 8555 

0 

.45 

0 

. 814737 

94 , 

.9847 

28 

.3 541 

68, 

. 9656 

10 

.8621 

45 

. 6797 

0 

. 5 

0 

. 921532 

91 

.0816 

28 

.819 

70 

.7303 

10 

. 5273 

47 

. 0767 
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» Régression sur composantes principales 

La régression sur composantes principales fournit les résultats suivants ordonnés selon le 
nombre de composantes principales conservées : 


dini 

RMSE 

Intereept 

CYL 

PUIS 

LON 

LAR 

POIDS 

VITESSE 

i 

430.1.69 

-43286.46 

2.743 <59 

49.978 

46.0278 

175.304 

7.5893 

71.383 


4401.15 

-34893.04 

2.94823 

52.544 

34.5556 

124.103 

6.4980 

102.827 

3 

4451 .25 

-5360.02 

4.31052 

75.618 

30.1434 

-39.880 

11.5931 

45.222 

4 

4296.24 

-5829.53 

-2.62099 

131.959 

70.7514 

-167.635 

18.6615 

64.667 

5 

4294.23 

-9856.37 

-4.01533 

181.544 

-42.9173 

141.908 

26.3105 

11 .216 

6 

4406.23 

-8239.36 

-3.50518 

282.169 

-15.0377 

208.694 

12.5747 

—111.114 


La solution en dimension 6 est celle des moindres carrés ordinaires. La meilleure formule 
est sans conteste celle obtenue avec une seule composante principale qui donne un RMSE 
de 4301.68, inférieur à celui de la régression ridge. 

Le spectre des valeurs propres de la matrice de corrélation est : 


NUMERO 

g§] 


POURCENT. 

CUMULE 


1 

4.4209 

73.68 

73.68 


9 

0.8561 

14.27 

87.95 

*„+****. ******** 

3 

0.3731 

6.22 

94.17 


4 

0.2139 

3.57 

97.73 

"***' 

5 

0.0928 

1.55 

99.28 

* ■* 

6 

0.0433 

0.72 

o 

o 

O 

o 

* 






Les coefficients de corrélation entre la variable prix et les 6 composantes principales sont : 



1 

CORRELATIONS V 

ARIA BI. E - FAC T EUR 



1 1 

2 3 

4 5 

6 ; 

PRIX 

i -0.77 

0.09 -0.13 

-0.23 -0.16 

-o.io i 


On remarque que l’ordre des corrélations n’est pas celui des valeurs propres 


• Régression PLS 

La régression PLS avec une seule composante (c’est ce qu’indique la validation croisée) 
extrait 73.6 % de la variance de y et 60.8 % de la variance des X. On obtient la formule 
suivante : 

PRIX = -39940.366 + 2.562CYL + 58.807PUIS + 43.687LON + 154.34LAR 
4- 8.252POIDS + 71.892VITESSE 

Le RMSE est cette fois de 4239, inférieur à celui de la régression sur composantes prin¬ 
cipales comme le prévoyait la théorie. La régression PLS fournit donc la meilleure formule 
conservant les 6 variables. 
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17.7 PRÉDICTEURS QUALITATIFS 

S 7.7.1 Le principe de quantification optimaBe 

Supposons que parmi les prédicteurs on ait q variables qualitatives à m,, nu,..ni catégo¬ 
ries respectivement. On cherchera alors à les transformer en q variables numériques discrètes 
à m|, nu, . .., niq valeurs au plus de sorte que la régression fournisse le R 2 le plus élevé. 

On sait que la variable numérique obtenue par quantification d’une variable qualitative est 
une combinaison linéaire des variables indicatrices des catégories. Il suffit donc de rempla¬ 
cer chaque variable qualitative par l’ensemble des variables indicatrices de ses catégories : 
ceci revient a utiliser comme matrice X de variables explicatives la matrice suivante : 


X = 1 X, 


où X () est le tableau des variables quantitatives et les X,- / = 1,2,..., q les tableaux disjonctifs 
associés aux q variables qualitatives. 

Les coefficients de régression associés aux variables indicatrices seront donc les quantifi¬ 
cations recherchées. 

Cependant une difficulté surgit au moment de résoudre l’équation normale X'Xh = X'y 
si q s 1. En effet, il est facile de s’apercevoir que dans ce cas les colonnes de X ne sont pas 
linéairement indépendantes : pour tout tableau disjonctif X f , la somme des colonnes est égale 
au vecteur 1. Il existe donc q relations linéaires entre les colonnes de X. 

Dans ce cas, l’équation normale a une infinité de solutions qui correspondent à des 
pseudo-inverses différentes de X'X ; toutes ces solutions fournissent d’ailleurs le même 
vecteur y* car la projection de y sur W est unique, mais les coefficients bj ne sont pas 
uniques. 

Pour obtenir une estimation unique b il faut donc imposer q contraintes linéaires sur les 
codages des variables qualitatives. Les plus simples sont en particulier : 

a) Pour chaque variable qualitative une des modalités aura un coefficient bj nul. Ceci 
revient en fait à supprimer une colonne dans chaque tableau X,-. ce qui rend la matrice 
X de plein rang. 

b) Pour chaque variable qualitative la somme des coefficients de b relatifs à cette varia¬ 
ble est nulle. On peut vérifier que ceci revient à supprimer une des colonnes de 
chaque tableau disjonctif et à remplacer les colonnes restantes par leur différence 
avec la colonne supprimée. 


17.7.2 Retour sur TanaSyse de la variance 


Lorsque toutes les variables explicatives sont qualitatives la régression multiple cor¬ 
respond à l’analyse de la variance décrite au chapitre 14 en ce sens que l’estimation des effets 
des niveaux n’est autre que l’estimation des coefficients de régression et que les tests des 
effets des facteurs sont les tests F de nullité des sous-groupes de coefficients de régression 
correspondant aux indicatrices d’une variable qualitative. 
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On vérifiera sans peine que le modèle d’analyse de variance à un facleur correspond à la 
régression suivante : 


" y, ‘ 


" 1 10. 

0‘ 


" M- " 


" O " 

y 2 

= 

110. 

0 


a. 

+ 

e i 

. >’/«. 


J 0 0 . 

1 _ 


. a r- 


_ c n _ 


On impose ici la contrainte 5/»,■(*,• = 0 pour pouvoir identifier les paramètres. 

i 

L'analyse de variance à deux facteurs avec interaction correspond à effectuer la régression 
de y sur un tableau X de variables explicatives composé de : 


P q PÇ 


' 1 




1 





X, 

x 2 

X, 2 

_ 1 





où X, et X 2 sont les tableaux des indicatrices des niveaux des deux facteurs A et B et X I2 
le tableau des indicatrices d’interaction correspondant aux pq combinaisons des niveaux 
de A et de B. 

On retrouve alors le modèle : 

y “ jul! + X|Ot + X 2 b + X 12 7 4- e 

On peut donc utiliser, moyennant les précautions dues au rang de X, un programme de 
régression multiple pour effectuer de l’analyse de variance même avec des modèles complexes 
(plusieurs facteurs avec interactions, plans non équilibrés). 


17.7.3 Exemple : prix d’une voiture (suite) 


On a ajouté aux deux prédicteurs puissance et poids la finition (variable qualitative à 
trois modalités TB, B, M). Afin d’obtenir une solution on a choisi la contrainte consistant 
à donner le coefficient 0 à la catégorie TB. 

On trouve alors la relation : 


Prix* = 23383.6 -f 86.96 Puis + 8.01 Poids 


+ 


- 10056.1 
- 6243.3 
0 


M 

B 

TB 


Seuls les différences entre valeurs associées aux catégories ont ici un sens. 
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Le R 2 est alors de 0.90 et <t vaut 2320.0. 

Le tableau 17.10 montre les résultats de ce modèle à 4 variables explicatives : 


Tableau 17.10 



Yi 

y* 

1 

30570.00 

30976.30 

2 

39990.00 

39663.33 

3 

29600.00 

27648.39 

4 

28250.00 

25904.76 

5 

34900.00 

34510.48 

6 

35480.00 

39162.20 

7 

32300.00 

33298.60 

8 

32000.00 

30010.28 

9 

47700.00 

45084.43 

10 

26540.00 

24635.99 

11 

42395.00 

41350.06 

12 

33990.00 

33559.50 

13 

43980.00 

44354.30 

14 

35010.00 

34310.28 

15 

39450.00 

39380.66 

16 

27900.00 

29313.20 

17 

32700.00 

34804.52 

18 

22100.00 

26887.63 




Analyse discriminante 
et régression 
logistique 


Le but des méthodes de discrimination consiste à prédire une variable qualitative à k caté¬ 
gories à l'aide de p prédicteurs, généralement numériques. 

On peut considérer l’analyse discriminante comme une extension du problème de 
la régression au cas où la variable à expliquer est qualitative; on verra d’ailleurs que dans 
le cas de deux catégories, on peut se ramener exactement à une régression linéaire mul¬ 
tiple. 

Les données consistent en n observations réparties en k classes et décrites par p variables 
explicatives. 

On distingue deux aspects en analyse discriminante : 

a) descriptif : chercher quelles sont les combinaisons linéaires de variables qui per¬ 
mettent de séparer le mieux possible les k catégories et donner une représentation 
graphique (ainsi qu’en analyse factorielle), qui rende compte au mieux de cette 
séparation; 

b) décisionnel : un nouvel individu se présente pour lequel on connaît les valeurs des 
prédicteurs. 11 s’agit alors de décider dans quelle catégorie il faut l’affecter. C’est un 
problème de classement (et non de classification, voir chapitre 1 l) lf: . 

Ces deux aspects correspondent grosso modo à la distinction entre méthodes géométriques 
et méthodes probabilistes faite dans ce chapitre. 

Parmi les innombrables applications de l’analyse discriminante citons quelques domaines : 

- aide à la décision en médecine : à partir de mesures de laboratoire, on cherche une fonc¬ 
tion permettant de prédire au mieux le type d’affection d’un malade, ou son évolution 
probable afin d’orienter le traitement; 

- finance : prévision du comportement de demandeurs de crédit. 

Le terme discrimination est utilisé dans ce chapitre en un sens assez large : nous y 
incluons la régression logistique afin de mieux la comparer à l’analyse discriminante 
linéaire. 

Le lecteur désireux d’en savoir plus sur l’utilisation de logiciels se reportera avec profit 
à Nakache et Confais (2003). 


* Remarque : en anglais « classification » a les deux acceptions. 
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; N 

18.1 MÉTHODES GÉOMÉTRIQUES 


■ai 


Ces méthodes, essentiellement descriptives, ne reposent que sur des notions de distance 
et ne font pas intervenir d’hypothèses probabilistes. 


On supposera vu que les données consistent en n observations de p variables numériques 
appartenant à k classes. 


18. S. 1 Variances interclasse et Intraciasse 


Les n individus e, de l’échantillon constituent un nuage E, de IR r partagé en k sous-nuages 
E |, Ei, . . ., E k de centres de gravité g h g 2 , • • go de matrices de variances V,, V-,, .. ,,\ k 
(fi g. 18.1). ’ ’ 



Soit g le centre de gravité et V la matrice de variance de E tout entier. Si les n individus 
tj sont affectés des poids p { , p 2 , ■ . p „, les poids q lt q 2 , ■ . ., q k de chaque sous-nuage 
sont alors : 


Rj = 2 Pi 


On a : 


gj = "2 P, pour e, e£- 
Ri / 

k ^ 

g = S Rj%j et V; = - 2 Pi(*i - gj)(e,- - g jY 

J= 1 Rj C.GE, 

Appelons matrice de variance interclasse, la matrice de variance B des k centres de gravité 
affectés des poids qj : 

B = 2 R/Sj ~ g)(g; “ g)' 

j = 1 
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et matrice de variance intraclasse W la moyenne des matrices V,- : 

vv =É%V, 

i-t 


En règle générale, W est inversible tandis que B ne l’est pas, car les k centres de gravité sont 
dans un sous-espace de dimension le — 1 de U 1 ’ (si p> k — 1 ce qui est généralement le cas), 
alors que la matrice B est de taille p. 

On a alors la relation suivante : 

V = W + B 


qui se démontre aisément et constitue une généralisation de la relation classique : variance 
totale = moyenne des variances + variance des moyennes. 

Nous supposerons désormais que g = 0, c’est-à-dire que les variables explicatives sont 
centrées. 

Si l’on considère que le tableau de données à étudier se met sous la forme : 



1 

2 

k 

1 2 

P 

1 

"l 

0 

0 


- 

2 








A 


X 


n 

.0 

0 . . . 

1 




où X est la matrice des p variables explicatives et A le tableau disjonctif associé à la varia¬ 
ble qualitative, les k centres de gravité g,, g 2 , . . ., g k sont les lignes de la matrice 
(A'DAr> (A'DX). 

A'DA est la matrice diagonale des poids qj des sous-nuages : 


Q\ 


A'DA = D, ; = 


<72 


0 


0 


c Iu 


La matrice de variance interclasse s’écrit alors, si g = 0 : 

B = ((A'DA)“ l A'DX)'A'DA((A'DAr l A'DX) 

= X'DA(A'DA)" ! A'DX = (X'DA)D" 1 (A'DX) 
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Dans le cas où p, = Un les expressions précédentes se simplifient et en introduisant '■ s 1 
effectifs n 2 , . . n k des k sous-nuages, on a : 7< 

B = "2 «jgjgj ; 8y = “S e f ; W = -£ «/Vy J 

n j >tj /.• n j ' J 

Nous supposerons désormais être dans ce cas. 

18.1.2 L’analyse factorielle discriminante (AFD) 


18.1.2.I Les axes et variables discriminantes 

L’AFD consiste à rechercher de nouvelles variables (les variables discriminantes) cor¬ 
respondant à des directions de R 7 ’ qui séparent le mieux possible en projection les k groupes 
d’observations. 

L’axe l de la figure 18.2 possède un bon pouvoir discriminant tandis que l’axe 2 (qui est 
l’axe principal usuel) ne permet pas de séparer en projection les deux groupes. 




Figure 18.2 


Supposons R 7 ’ muni d’une métrique M. On notera comme au chapitre 7, a l’axe discrimi¬ 
nant, u le facteur associé u = Ma, la variable discriminante sera Xu. 

En projection sur l’axe a, les k centres de gravité doivent être aussi séparés que possible, 
tandis que chaque sous-nuage doit se projeter de manière groupée autour de fa projection de 
son centre de gravité. 

En d’autres termes, l’inertie du nuage des g / - projetés sur a doit être maximale. La matri¬ 
ce d’inertie du nuage des g est MBM, l'inertie du nuage projeté sur a est a'MBMa si a est 
M-normé a 1. 

Il faut aussi qu’en projection sur a, chaque sous-nuage reste bien groupé, donc que 
a'MVy Ma soit faible pour y = 1,2... ., k. 

k 

On cherchera donc à minimiser la moyenne ^ fya'MVj Ma soit a'MWMa. 

j= i 

Or la relation V = B + W entraîne que MVM — MBM + MWM, donc que : a'MVMa = 
a'MBMa + a'MWMa. 

On prendra alors comme critère, la maximisation du rapport de l’inertie inter¬ 
classe à l’inertie totale. 



18m (Analyse discriminante et régression logiscique 


443 


Soit : 

a'MBMa 

max- 

u a MVMa 

On sait, que ce maximum est atteint si a est vecteur propre de (MVM) -1 MBM associé 
à sa plus grande valeur propre X, : 

IVr'V ’BMa - X,a 

A l'axe discriminant a est alors associé le facteur discriminant u, tel que u = Ma. 

On a alors : 

V'Bu = X,u . 

Les facteurs discriminants, donc les variables discriminantes Xu, sont indépendants de la 
métrique M. On choisira par commodité M = V~' qui donne BV~'a = Xa et V 'Bu = Xu. 

On a toujours 0 ^ X s ^ 1 car Xi est la quantité à maximiser. 

« X, = L correspond au cas suivant : 

En projection sur a les dispersions intraclasses sont nulles. Les k nuages sont donc chacun 
dans un hyperplan orthogonal à a (fig. 18.3). 

Il y a évidemment discrimination parfaite si les centres de gravité se projettent en des 
points différents. 

o X, = 0 correspond au cas où le meilleur axe ne permet pas de séparer les centres de 
gravité g,-, c'est le cas où ils sont confondus. 

Les nuages sont donc concentriques et aucune séparation linéaire n’est possible (fig. 18.4). 

Il se peut cependant qu’il existe une possibilité de discrimination non linéaire : la distance au 
centre permet ici de séparer les groupes, mais il s’agit d’une fonction quadratique des variables. 

La valeur propre X est une mesure pessimiste du pouvoir discriminant d’un axe. La ligure 18.5 
montre qu’on peut discriminer parfaitement car les groupes sont bien séparés malgré X < 1. 

Le nombre des valeurs propres non nulles, donc d’axes discriminants, est égal à k — 1 dans 
le cas habituel où n > p > k et où les variables ne sont pas liées par des relations linéaires. 



Figure 18.5 
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18.1.2.2 Une analyse en composantes principales (ACP) particulière 

D’après les équations précédentes l’analyse factorielle discriminante n’est autre que 
l’ACP du nuage des k centres de gravité avec la métrique V -1 . 

On en déduit que les variables discriminantes sont non corrélées 2 à 2. 

S’il existe un second axe discriminant, il est possible de représenter le nuage des n 
observations en projection sur le plan défini par ces deux axes : ce plan est alors celui qui 
permet le mieux de visualiser la séparation des observations en classes. 

Ainsi qu’en ACP, on pourra interpréter les variables discriminantes au moyen d’ur cercle 
des corrélations. 

Nous verrons plus loin que l’analyse factorielle discriminante équivaut aussi à l’ACP des 
g, avec pour métrique VV -1 . 

18.1.2.3 Une analyse canonique particulière 

L’analyse discriminante est l’analyse canonique des tableaux A et X. 

En effet, l’équation de l’analyse canonique de A et X donnant les variables canoniques 
associées à X s’écrit : 


(X'DXr 1 X'DA(A'DA)~'A'DXu = Xu 


ce qui est identique à V 'Bu = Xu d’après le paragraphe 1. C’est une nouvelle preuve que 
les variables discriminantes sont non corrélées deux à deux. 

Si l’on désigne par Aa la première variable canonique associée à A solution de l’autre 
équation de l’analyse canonique : 


(A'DAr'ADXtXDXr'XDAa = Xa 


normée de telle sorte que sa projection sur le sous-espace de R” engendré par les p variables 
explicatives soit identique à Xu, on peut présenter l’analyse discriminante comme la recherche 
du codage de la variable qualitative qui la rend le plus proche de l’espace engendré par les 
colonnes de X. Si les p variables explicatives sont centrées, alors la variable codée l’est aussi et 
u est le vecteur des coefficients de régression de Aa sur X. 

La première valeur propre X, est alors le carré du coefficient de corrélation multiple. 

L’analyse discriminante est donc bien une généralisation de la régression multiple au cas 
où la variable à expliquer est qualitative. 

La figure 18.6 dans R" montre l’identité entre les deux conceptions de l’analyse discrimi¬ 
nante : analyse canonique d’une part et maximisation de la variance interclasse par rapport à 
la variance totale d’autre part. 

W A - est l’espace engendré par les colonnes de X ; \V A est l’espace engendré par les indica¬ 
trices de la variable à expliquer. 
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Si l’on projette D-orthogonalement la variable discriminant £ sur W A en Aa, le théorème 
de Pythagore s'écrit : 


Uf= || Aa j| 2 + ||A a -4ir- 



Variance totale de £; = variance interclasse 4- variance intraclasse. 

variance interclasse . , 

La maximisation du rapport-n’est autre que la maximisation de cos- 0 

variance totale 

où 0 est l’angle formé par Aa et £. ce qui est bien le critère de l’analyse canonique. 

On appelle d’ailleurs cette méthode analyse discriminante canonique chez les auteurs 
anglophones. 

18.1.2.4 Analyse de variance et métrique W~ ] 

Si il n’y avait qu’une seule variable explicative on mesurerait l’efficacité de son pouvoir 

séparateur sur la variable de groupe au moyen d’une analyse de variance ordinaire à un facteur. 

variance inter Ik — 1 

La statistique F valant alors-. 

variance intra/n — k 

Comme il y a p variables on peut rechercher la combinaison linéaire définie par des coef¬ 
ficients u donnant la valeur maximale pour la statistique de test ce qui revient à maximiser : 

u'Bu 

u'Wu 

La solution est donnée par l’équation : 

W _1 Bu = pu avec p, maximal 

, \ 

Les vecteurs propres de W B sont les mêmes que ceux de V 'B avec p = -—. 

En effet, Bu = AVu est équivalent à : 

Bu = \(W + B)u soit (1 — \)Bu = AWu 
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d’où 


W'Bu 


Au 




Si 0 ^ A < 1 on a en revanche 0 < p < ^ etA = 


[L 


1 + [X 

L’utilisation de V -1 ou de W~' comme métrique est donc indifférent. La métrique W 1 
est appelée « métrique de Mahalanobis ». 

La convention usuelle dans la plupart des logiciels est d’avoir des variables discriminantes 
dont la variance intraclasse vaut 1. 

On doit donc avoir u'Wu = 1. Ce qui revient à u'Bu = --— = jx et à u'Vu 


I 


1 - A 


1 - A 


car u'Bu = u'A(W + B)u = Au'Vu. 

18.1.2.5 Un exemple classique : les iris de Fisher 


Ce fameux exemple sert de jeu d’essai. Les données concernent trois espèces d’iris (setosa, 
versicolor, virginica) représentées chacune par 50 individus décrits par 4 variables (longueur et 
largeur des pétales et sépales). 

Il y a donc uniquement deux axes discriminants ce qui permet une représentation plane. 
On trouve : 


Aj = 0.969872 
A-, = 0.222027 


Mo 

Mo 


32.1919 

0.2854 



axe 1 


Figure 18.7 : Pian discriminant des iris de Fisher 
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La figure 18.7 montre, avec les ellipses de tolérance à 0.95 (voir 13.6.2). une bonne sépa¬ 
ration. L’axe n°2 n'est guère discriminant, mais il est bien utile pour faire un graphique et 
l’écarter au vu d’un test statistique serait maladroit. 

|8.S.3 Règles géométriques d’affectation 

Ayant trouvé la meilleure représentation de la séparation en k classes des n individus, on 
peut alors chercher à affecter une observation e à l’un des groupes. 

La règle naturelle consiste à calculer les distances de l’observation à classer à chacun des 
k centres de gravité et à affecter selon la distance la plus faible. Encore faut-il définir la 
métrique à utiliser. 

18.1.3. I Règle de Mahalanobis-Fisher 

Elle consiste à utiliser la métrique W" 1 (ou V" 1 ce qui équivalent) : 


d\e: g,) = (e - g,-)'W 1 (e - g f ) 

En développant cette quantité on trouve : 

<r/-(e; g,) = e'W~'e + g/W" 1 »,- - 2e'W _, g; 


Comme e'W ! e ne dépend pas du groupe /, la règle consiste donc à chercher le minimum 
de gbW-'g,- - 2e'W~ ! g,- ou le maximum de e'W -1 g ; — (g',W“ l g,)/2. 

On voit que cette règle est linéaire par rapport aux coordonnées de e. 

Tl faut donc calculer pour chaque individu k fonctions linéaires de ses coordonnées et en 
chercher la valeur maximale. 

Illustrons cette règle avec les iris de Fisher : les trois fonctions de classement sont don¬ 
nées par le tableau suivant. 


Variable 

Setosa 

Versicolor 

Virginica 

Constant; 

-85.20986 

-71.75400 

-103.26971 

SepalLength 

2.35442 

1.56982 

1.24458 

SepalWidth 

2.35879 

0.70725 

0.36853 

PetalLength 

-1.64306 

0.52115 

1.27665 

PetalWidth 

-1.73984 

0.64342 

2.10791 


Si l’on applique ces règles aux 150 observations dont on dispose, le tableau suivant (appe¬ 
lé matrice de confusion) donne les résultats de classement : on trouve que les 50 setosa sont 
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parfaitement classés et que seuls deux versicolor sont attribués à l'espèce virginica, alors 
qu’un seul virginica est mal classé. Ces résultats semblent excellents, mais sont biaisés en ce 
sens qu’ils surestiment les performances (voir le paragraphe 18.7.2) 


De Espece 

Setosa 

Versicolor 

Virginica 

Setosa 

50 

0 

0 

Versicolor 

0 

4 8 

2 

Virginica 

0 

1 

49 


Remarquons que l'application de la règle géométrique peut se faire indifféremment dans 


l’espace M ou dans l’espace factoriel 

En particulier si k = 3, les frontières d’affectation aux groupes sont des hyperplans ortho¬ 
gonaux au plan des trois centres de gravité. On peut lire directement les distances de 
Mahalanobis à g b g 2 , g 3 en utilisant le graphique des deux variables canoniques discrimi¬ 
nantes normalisées à I (au sens de la variance intraclasse). 


18.1.3.2 Insuffisance des règles géométriques 


L’utilisation de la règle précédente conduit à des affectations incorrectes lorsque les 
dispersions des groupes sont très différentes entre elles : rien ne justifie alors l’usage de la 
même métrique pour les différents groupes. 

En effet, si l’on considère la figure 18.8. bien que e soit plus proche de g, que de g : au sens 
habituel il est plus naturel d’affecter e à la deuxième classe qu’à la première dont le « pouvoir 
d’attraction » est moindre. 


e 



Diverses solutions utilisant des métriques locales M, telles que : 

d 2 (e; g i) = (e - g f )'M f (e - g { ) 
ont été proposées, la plupart prenant M, proportionnel à Vf 1 . 
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La question de l'optimalité d’une règle de décision géométrique ne peut cependant être 
résolue sans référence à un modèle probabiliste. En effet le problème est de savoir comment 
cette règle se comportera pour de nouvelles observations ce qui impose de faire des hypo¬ 
thèses distributionnelles sur la répartition dans l’espace de ces nouvelles observations. On 
atteint donc ici les limites des méthodes descriptives. Nous verrons plus loin dans quelles 
conditions elles conduisent à des règles optimales. 

18.2 FONCTION DE FISHER 

ET DISTANCE DE MAHALANOBIS 
POUR DEUX GROUPES 

18.2.1 La fonction de Fisher (1936) 

Il n'y a donc qu’une seule variable discriminante puisque £—1 = 1. 

L’axe discriminant est alors nécessairement la droite reliant les deux centres de gravité 
gi et g, : 

a = (gi ~ g ; ) 

La variable discriminante d n’obtient en projetant sur a selon la métrique V -1 ou W -1 qui 
tient compte de 1’ « orientation » des nuages par rapport à la droite des centres (ftg. 18.9). 



Le facteur discriminant u vaut donc : 

u = V-'Cg, - g 2 ) ou u = W-'(g, - g 2 ) 
qui lui est proportionnel, (voir plus loin) 

W —1 (g | - g 2 ) est la fonction de Fisher 


Pour des raisons d’estimation on prend habituellement non pas W 1 mais : 

n > + n-t 2 


n , + n 2 


W 
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On peut retrouver la démarche de Fisher par le raisonnement suivant : 

Cherchons la combinaison linéaire des variables explicatives telles que le carré de la sta¬ 
tistique du test T d'égalité des moyennes des deux groupes prenne une valeur maximale : 


max 


n i -f i l -> 


O’i 


II , + 71 2 XS 


i l i + n -, 


_ O 


— + 


où y = Xu 


(u'(gi - gu)) 2 


v = ——-——W ceci revient à maximiser -—. u est défini à un 


en posant Z „ .. _ 

// i + «2 ~ - u'Su 

coefficient multiplicateur près et doit être proportionnel à X~' (g; — g 2 ). 


S 8.2.2 Application de S’analyse canonique 

On peut trouver l’unique valeur propre de V _I B en remarquant que pour deux groupes 


B 


ii] n-> 


T^(gi - g 2 )(gi “ g:)' 


En effet : B 


n, , /i-, . 

— Sigi +— gegeior: 
n n 



+ ~ ge = 0 
n 


On a donc B 


n ! 

— gigi 
n 


— g|g'-> = — gi(gi “ g 2 ) et symétriquement : 
n n 


B = g; (gl - g' 2 ) 
n 


donc en moyennant : 

n \ il i 

B = —t~ (gi - g 2 )(gi “ ge) 

;r 

On vérifie que u = V _1 {g! — g 2 .) est vecteur propre de V~'B : 


V 1 ^-^(g| - g 2 .)(gi - g 2 )'V 1 (g, - g,) = XV '(g, - g 2 ) 

ir 


X = 


n 


4^gi -gJ'v-'fg, 


~ g 2 ) 


avec : 
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et : 


X. n i n-, 

= 1-T = — (g] ” g 2 ) W 1 (g, - g 2 ) 

1 — A. rr 

)jl est donc proportionnel au Dj, de Mahalanobis estimé entre les deux groupes (voir 
chapitre 14 paragr. 14.4.5.2). 

On a exactement : 

4 = - / fl % T D J, car Dj = --— (g, - gn/W' 1 (g, - g 2 ) 

n{n — 2) n 

On trouve alors : 

w-'(g,-g 2 ) = (l +^7=l] C) ;') V " l(gl “ g;) 

L’usage de la convention de normalisation u'Wu = I présente l’avantage suivant : 

Les coordonnées des deux centres de gravité sur l’axe discriminant ont une différence 
égale à la distance de Mahalanobis D p . 

En effet g', u et g' 2 u sont ces coordonnées où u est le facteur canonique normalisé. 
Celui-ci est proportionnel à W _l (g, — g 2 ), la constante de proportionnalité a étant telle 
que u'Wu = 1 soit : 


[aW ‘(g, - g 2 )]'W[aW '(g, - g 2 )] = or (g, - g 2 )'W ‘(g, - g 2 ) 

n - | . I 

En négligeant la correction par-- (ou en utilisant 1 à la place de W) il vient |otj — — 


|g> “ S: u l = |(gi “ g:)'u| = kl(gi ~ ga)'W '(gi ~ gz) = jf = D ,> 

u p 

\ 8.2.3 Équivalence avec une régression multipie inhabituelle 

L’analyse canonique se réduit ici à une régression multiple puisque après avoir 
centré, l’espace engendré par les deux indicatrices de la variable des groupes est de 
dimension I. 

Il suffit donc de définir une variable centrée y ne prenant que les deux valeurs a et b sur 
les groupes 1 et 2 respectivement (n x a + n 2 b — 0). 

On obtiendra alors un vecteur des coefficients de régression proportionnel à la fonction de 
Fisher pour un choix quelconque de a. 

Le choix a = —, b = ——conduit alors à b = (X'X) -1 X'y = V~ ! (g| - g 2 ). 
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On a : 


R 2 


ni 


n{n — 2) 


n ,// 


+ Df } 


r ‘ 2 


On prendra garde au fait que les hypothèses habituelles de la régression ne sont pas 
vérifiées bien au contraire : ici y est non aléatoire et X l’est. Il ne faudra donc pas utiliser les 
statistiques usuelles fournies par un programme de régression, en particulier les erreurs stan¬ 
dard des coefficients et les niveaux de signification. 

Le fait que la fonction de Fisher puisse être obtenue par une régression multiple peu ortho¬ 
doxe a suscité des controverses et incompréhensions non fondées au profit de la régression 
logistique (voir 18.6.3 pour une discussion approfondie). 


18.2.4 Fonctions de classement et fonction de Fisher 

En appliquant la régie du paragraphe 18.1.3.1 au cas de deux groupes on décidera 
d’affecter au groupe 1 si : 


e'W 'g, - - (g,'YV 'g, ) > e'W *g 2 


gVW 'g[ 


soit : 


e'W l (g, - g 2 ) > - (g, + g 2 )'W '(g, - g 2 ) 


Comme W '(gi — g:) est fonction de Fisher, la règle consiste donc à affecter au grou¬ 
pe 1 si la valeur de la fonction discriminante est supérieure au seuil : 


l ~(Si + g:)'W ‘(g, - g 2 ) 

Lorsque les deux groupes sont de même effectif g, + g 2 = 0 ; on affecte au groupe 1 si la 
fonction e'W^fg, — g 2 ) est positive. 

S 8.2.5 Exemple « infarctus » 

Les données du tableau 18.1 (communiquées par J.-P. Nakache) concernent 101 victimes 
d’infarctus du myocarde (51 décéderont, 50 survivront) sur lesquels ont été mesurées à leur 
admission dans un service de cardiologie 7 variables (fréquence cardiaque, index cardiaque, 
index systolique, pression diastolique, pression artérielle pulmonaire, pression ventriculaire, 
résistance pulmonaire). Le tableau 18.2 donne les statistiques élémentaires par groupe. 
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Tableau 18.1 


frcar 

INCAP. 

IM SYS 

p RD IA 

PAPUL 

PVEMT 

REPUL 

PRONO 

90 

1.71 

19.0 

16 

19.5 

16.0 

912 

SURVIE 

90 

1.68 

18.7 

24 

31.0 

14.0 

14 7 6 

DECES 

120 

1.40 

11.7 

23 

29.0 

8.0 

1657 

DECES 

82 

1.79 

21.8 

14 

17.5 

10.0 

782 

SURVIE 

80 

1.58 

19.7 

21 

28.0 

18.5 

1418 

DECES 

80 

1.13 

14.3 

18 

23.5 

9.0 

1664 

DECES 

94 

2.04 

21.7 

23 

27.0 

10.0 

1.059 

SURVIE 

80 

1.19 

14.9 

16 

21.0 

16.5 

1412 

SURVIE 

7 8 

2.16 

27.7 

15 

2 0.5 

11.5 

759 

SURVIE 

100 

2.28 

22.8 

16 

23.0 

4.0 

807 

SURVIE 

90 

2.79 

31.0 

3 6 

25.0 

8.0 

717 

SURVIE 

86 

2.70 

31.4 

15 

23.0 

9.5 

651 

SURVIE 

80 

2.61 

32.6 

8 

15.0 

1.0 

460 

SURVIE 

a 1 

2.84 

47.3 

11 

17.0 

3 2.0 

47 9 

SURVIE 

99 

3.12 

31. fî 

15 

20.0 

11.0 

513 

SURVIE 

92 

2.47 

26.8 

12 

19.0 

11.0 

615 

SURVIE 

96 

1 . 88 

19.6 

12 

19.0 

3.0 

809 

SURVIE 

86 

1.70 

19.8 

10 

14.0 

10.5 

659 

SURVIE 

125 

3.37 

26.9 

18 

2 8.0 

6.0 

665 

SURVIE 

80 

2.01 

25.0 

15 

20.0 

6.0 

796 

SURVIE 

82 

3.15 

38.4 

13 

20.0 

6.0 

508 

SURVIE 

110 

1.66 

15.1 

23 

31.0 

6.5 

149 4 

DECES 

80 

1.50 

18.7 

13 

17.0 

12.0 

907 

DECES 

118 

1.03 

8.7 

19 

27.0 

3 0.0 

2097 

DECES 

95 

1 . 89 

19.9 

25 

27.0 

20.0 

1143 

DECES 

80 

1.45 

18.1 

19 

23.0 

15.0 

12 69 

DECES 

85 

1.30 

15.1 

13 

18.0 

10.0 

1108 

DECES 

105 

1. 84 

17.5 

18 

22.0 

10.0 

957 

DECES 

122 

2.79 

22.9 

25 

36.0 

10.0 

1032 

SURVIE 

81 

1.77 

21.9 

18 

27.0 

11.0 

1220 

SURVIE 

118 

2.31 

19.6 

22 

27.0 

10.0 

935 

SURVIE 

87 

1.20 

13.8 

3 4 

41.0 

20.0 

2733 

DECES 

65 

1.19 

18.3 

15 

18.0 

13.0 

1210 

DECES 

84 

2.15 

25.6 

27 

37.0 

10.0 

1377 

SURVIE 

103 

0.91 

8.8 

30 

33.5 

10.0 

29 4 5 

DECES 

75 

2.54 

33.9 

24 

31.0 

16.0 

97 6 

SURVIE 

90 

2.08 

23.1 

20 

28.0 

6.0 

1077 

SURVIE 

90 

1.93 

21.4 

11 

18.0 

10.0 

746 

SURVIE 

90 

0.95 

10.6 

20 

24.0 

6.0 

2021 

DECES 

65 

2.38 

36.6 

16 

22.0 

12.0 

73 9 

SURVIE 

95 

0.99 

10.4 

20 

27.5 

3.0 

2^2 p 

DECES 

95 

0.85 

8.9 

19 

22.0 

15.5 

2071 

DECES 

86 

2.05 

23.8 

21 

2 8.0 

10.0 

1093 

SURVIE 

82 

2.02 

24.6 

16 

22.0 

14.0 

871 

SURVIE 

70 

1.44 

20.6 

19 

26.5 

11.0 

1472 

DECES 

92 

3 .06 

33.3 

3 0 

15.0 

6.0 

392 

SURVIE 

94 

1.31 

13.9 

26 

40.0 

15.0 

2443 

DECES 

79 

1.29 

16.3 

24 

31.0 

10.0 

1922 

DECES 

67 

1.47 

21.9 

15 

18.0 

16.0 

980 

SURVIE 

75 

1.21 

16.1 

19 

24.0 

4.0 

1587 

DECES 
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Tableau 18.1 (suite et fin) 


FRCAR 

INCAR 

INSYS 

PRDIA 

80 

2.41 

30.9 

19 

61 

3.28 

54.0 

12 

110 

1.24 

li .3 

22 

116 

1.85 

15.9 

33 

75 

2.00 

26.7 

16 

92 

1.97 

21.4 

18.0 

110 

0.96 

8.8 

15.0 

95 

2.56 

26.9 

8.0 

75 

2.32 

30.9 

8.0 

80 

2.65 

33 .1 

13.0 

102 

1.60 

15.7 

24.0 

86 

1.67 

19.4 

18.0 

60 

0.82 

13.7 

22.0 

100 

1.76 

17.6 

23.0 

30 

3 ^ a 

41.0 

12.0 

108 

2.96 

27.4 

24.0 

92 

1.37 

14.8 

25.0 

100 

1.38 

13 . 8 

20.0 

80 

2.85 

35.6 

25.0 

S7 

2.51 

28.8 

16.0 

100 

2.31 

23.1 

8.0 

120 

1.18 

9.9 

25.0 

115 

1.83 

15.9 

25.0 

101 

2.55 

25.2 

23.2 

92 

2.17 

23.5 

19.0 

87 

1.42 

16.1 

20.0 

80 

1.59 

1.9.9 

13.0 

88 

1.47 

16.7 

23.0 

104 

1.23 

11.8 

27.0 

90 

1.45 

16.1 

17.0 

67 

0.85 

12.7 

26.0 

87 

2.37 

27.2 

15.0 

108 

2.40 

22.2 

26.0 

120 

1.91 

15.9 

18.0 

108 

1.50 

13.9 

28.0 

86 

2.36 

27.4 

24.0 

112 

1.56 

13.9 

24.0 

80 

1.34 

17.0 

16.0 

95 

1.65 

17.4 

20.0 

90 

2.04 

22.7 

28.0 

90 

3.03 

33.6 

17.0 

94 

1.21 

12.9 

1.7.0 

51 

1.34 

26.3 

11.0 

110 

1.17 

10.6 

29.0 

96 

1.7 4 

18.1 

24.0 

132 

1.31 

9.9 

23.0 

135 

0.95 

7.0 

15.0 

105 

1.92 

18.3 

18.0 

99 

0.83 

8.4 

23.0 

116 

0.60 

5.2 

33.0 

112 

1.54 

13.8 

25.0 


PAPUL 

PVENT 

REPUL 

PRONO 

24.0 

7.0 

797 

SURVIE 

16.0 

7.0 

390 

SURVIS 

27.5 

11.0 

1774 

DECES 

42.0 

13.0 

1816 

DECES 

22.0 

5.0 

880 

SURVIE 

27.0 

3.0 

1096 

DECES 

19.0 

16.0 

1583 

SURVIE 

13.0 

3.0 

40 6 

SURVIE 

10.0 

6.0 

345 

SURVIE 

19.0 

9.0 

574 

SURVIE 

31.0 

16.0 

1550 

DECES 

23.0 

8.5 

1102 

SURVIE 

32.0 

13.0 

3122 

DECES 

33.0 

2.0 

1500 

SURVIE 

17.0 

2. Q 

415 

SURVIE 

35.0 

6.5 

946 

SURVIE 

46.0 

11.0 

2686 

DECES 

31.0 

11.0 

1797 

DECES 

32.0 

7.0 

89B 

SURVIE 

2 4.0 

20.0 

765 

DECES 

12.0 

1.0 

416 

SURVIE 

36.0 

8. 0 

2441 

DECES 

30.0 

8.0 

1311 

DECES 

30.5 

9.0 

957 

SURVIE 

24.0 

3 . 0 

885 

SURVIE 

26.0 

10.0 

1465 

DECES 

20.5 

4 . 0 

1031 

SURVIE 

32.5 

10.0 

1769 

DECES 

33 . 0 

11.0 

2146 

DECES 

24.0 

8.5 

1324 

SURVIE 

33 . 0 

11.0 

3106 

DECES 

22.0 

10.0 

743 

SURVIE 

31.0 

4.0 

1033 

SURVIE 

27.0 

15.0 

1131 

DECES 

43.0 

16.0 

1813 

DECES 

34.0 

8.0 

1153 

SURVIS 

29.0 

4.0 

1487 

DECES 

25.0 

16.0 

1493 

DECES 

33.0 

7.0 

1600 

DECES 

41.0 

10.0 

1608 

DECES 

23.5 

7.0 

620 

SURVIE 

22.0 

3.0 

14 5 5 

DECES 

17.0 

6.0 

1015 

DECES 

35.0 

10.5 

2393 

DECES 

29.0 

6.0 

1333 

DECES 

28.0 

12.0 

1710 

DECES 

20.0 

7.0 

1684 

DECES 

24.0 

3.0 

1000 

DECES 

27.0 

8.0 

2602 

DECES 

33.0 

10.0 

5067 

DECES 

31.0 

8.0 

1610 

DECES 
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Tableau 18.2 


VARIABLE 

H 

PRONO = DECES 

MEAN 

STANDARD 

DEVIATION 

F RCA R 

51 

95.90196078 

17.97693511 

INCAR 

51 

1.39470588 

0.37619332 

INSYS 

51 

14.99607843 

4.63900682 

PRDIA 

51 

21.96078431 

5.14183152 

PAPUL 

51 

29.09803922 

6.B1910523 

P VENT 

51 

10.64705882 

4.34429935 

REPUL 

51 

1797.27450980 

739.87296419 


PRONO = SURVIE 


FfiCAR 

50 

88.34000000 

13.84109527 

INCAR 

50 

2.30580000 

0.56055035 

INSYS 

50 

26.75200000 

8.08319597 

PRDIA 

50 

16.50400000 

5.15304388 

PAPUL 

50 

22.84000000 

6.46532352 

P VEN T 

50 

8.33000000 

4.05398519 

REPUL 

50 

841.38000000 

303.68256050 


La distance de Mahalanobis au carré vaut : 

D] = 4.942 d’où D 7 = 2.223 

Sous les hypothèses de multinormalité du chapitre 14 paragraphe 14.4.5.2, cette valeur 
correspond à un F — 16.476 : 


il [ n j n - p - 1 
n p(n ~ 2) p 


F 


La valeur critique à 1 % pour un F(7; 93) étant de 2.84, le D 2 est significatif d’une diffé¬ 
rence nette entre les deux groupes. 

On trouve R 2 = X = 0.5576 et jjl = 1.2604. 

La variable discriminante s’obtient alors par la combinaison linéaire des 7 variables cen¬ 
trées sur la moyenne générale des deux groupes (tableau 18.3). 


Tableau 18.3 

FRCAR 

-0.026445290 

INCAR 

2.768181397 

INSYS 

-0.075037835 

PRDIA 

0.009115031 

PAPUL 

—0.074211B97 

P VENT 

-0.021086258 

REPUL 

0.000084078 
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ou si l’on ne centre pas en ajoutant la constante 1.22816 à la combinaison linéaire précédente 
des données brutes. 

l+SSt 

Les coefficients de corrélation linéaires de la variable discriminante avec les 7 variables 
(les deux groupes confondus) sont indiqués sur le tableau 18.4. ; 


Tableau 18.4 


F RC AP, 

-0 , 

.3 097 

INCAR 

0 . 

.9303 

IM SYS 

0 

.8976 

P RDI A 

-0 

.6321 

PAPUL 

-0 

. 5751 

PVENT 

-0 

.3592 

REPUL 

-0 

. 8676 


Les moyennes des deux groupes sur la variable discriminante sont : 

Décès —1.1005 

Survie 1.1225 

On retrouve D 7 = + 1.1005 + 1.1225 = 2.2230. 

En appliquant les régies géométriques de classement le tableau 18.5 donne pour f exem¬ 
ple des infarctus les deux fonctions suivantes 


Tableau 18.5 



DECES 

SURVIE 

CONSTANT 

-91.57481116 

-89.97034555 

F RC A R 

1.53609883 

1.47730875 

INCAR 

-52.094 44 392 

-45.94054613 

ÏNSYS 

5.44165359 

5.27483824 

PRDIA 

-0.64815662 

-0.62789315 

PAPUL 

0.70738671 

0.54240748 

PVENT 

0.85037707 

0.80350057 

REPUL 

0.00638975 

0.00657667 


La fonction de Fisher s’obtient par différence entre les deux fonctions de classement 
(survie - décès). En divisant ensuite les coefficients par la distance de Mahalanobis, on 
retrouve les coefficients du tableau 18.3. 

18.3 LES SVM OU SÉPARATEURS À VASTE MARGE 

Lorqu'il n’y a que deux groupes, rétablissement d'une règle linéaire est équivalente à la 
détermination d'un hyperplan séparateur, ou frontière plane, et réciproquement. 

A la fonction de Fisher (figure 18.10a) est associé f hyperplan médiateur (figure 18.10b) 
de g, et g 2 (au sens de la métrique V -1 ou W~‘). 
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Figure 18.10a Axe discriminant 
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Figure 18.10b Frontière 


Si l’on note que la fonction de Fisher ne fait que définir une combinaison lnéaire sans 
terme constant, changer le seuil de classement revient à déplacer l’hyperplan parallèlement 
à lui-même. 

On peut chercher directement une Frontière, linéaire ou non, à condition de définir un critère 
convenable. 

18.3.1 L’hyperplan optimal 

La recherche directe d’un hyperplan optimal a fait l'objet de nombreux travaux depuis le 
perceptron de Rosenblatt (1958). On doit à V. Vapnik (1986) d’avoir défini un critère d'op¬ 
timalité basé sur la « marge », ou largeur d’une zone de part et d’autre de la frontière, et de 
l’avoir généralisé à des frontières non-linéaires grâce à un changement d’espace. 

L’objectif étant de classer, on peut chercher à minimiser le nombre d'observations mal 
classées, ou points du mauvais côté de la frontière. Ce critère ne suffit cependant pas à 
déterminer de manière unique un hyperplan séparateur : pour des données linéairement 
séparables, il y a une infinité de solutions comme le montre la figure 18.11. 



Figure 18.11 


18.3.1.1 Le cas séparable 

Soit Cia plus petite distance d’un point à la frontière. Vapnik a proposé que l’hyperplan optimal 
soit celui qui maximise cette distance, ce qui revient à avoir le plus grand « no man’s land » 
de part et d’autre de la frontière. La marge qui est la largeur du couloir vaut donc 2C. En 
dimension 2, on voit sur la figure 18.12 qu’il suffit de trouver les 3 points x,. x 2 , x 3 (appelés 
points support) pour définir la frontière : on trace la parallèle à x 2 . x 3 passant par x,, puis la droite 
au milieu. 
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La solution mathématique est la suivante : 

n 

L’hyperplan séparateur a pour équation ^.v-' P 7 + p 0 = x'P + p 0 — 0 où les coefficients 

i 

P sont définis à un facteur multiplicatif près. 

La distance d'un point Xj à l’hyperplan vaut : 

Np + go} 

Il P II 

Notons y s = 1 ou y; = -1 les appartenances aux deux groupes. Pour que les points soient 
tous du bon côté et à une distance supérieure à C, il faut pour tout i : 


1 

m 


V/(x;P + Pn)^ C 


et on doit maximiser C sous ces n contraintes. 

Les P étant définis à une constante près, on choisit || p || = ■—. Maximiser C revient à mini¬ 
miser !|P||, d'où le programme quadratique suivant : 

\ min P.Po II P P 


L v,-(xîP + Po) 2 = 1 

Ce problème admet une solution unique, dont les propriétés sont les suivantes. Soient ot 5 
les multiplicateurs de Lagrange associées aux contraintes. En dérivant le lagrangien 

n 

L = ||P|| 2 - 2^a ( [y; (x'p + p 0 ) — 1] (le facteur 2 est introduit par commodité), on 
i=i 

n m 

trouve p = 2 a L v, x i et ]£a,-y,- = 0 ainsi que les conditions de Kuhn et Tucker 

/= 1 i= 1 


«/[y, (xjp + Po) - U = 0 
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Si a, > 0 alors v,-(x,'P + (3 0 ) = 1 et le point est sur la marge 

Si v,fx'P + p n ) > 1 alors a, = 0 

La règle de classement est basée sur le signe de 

/(x) = p„ + S «j x’jX'x 

suppon 

L’hyperplan optimal ne dépend que des points support où a, est non nul, situés sur 
la marge, donc les plus difficiles à classer, ce qui le différencie de fhyperplan de Fisher : 
il peut être plus robuste, car il ne dépend pas des points situés loin de la frontière. On verra 
au chapitre suivant une propriété supplémentaire concernant la généralisation a de futures 
données. 

18.3.1.2 Le cas non-séparable 

Dans ce cas certains points seront du mauvais côté de la frontière (figure 18.13), et on 
va chercher à minimiser l’importance de l’erreur de classement. On introduit alors les 
variables d’écart ij ;,: et Pour un point mal classé £* est la distance à la marge de sa 
classe, et on pose £ :i! = CÇ. 



Figure 18.13 


On modifie alors les contraintes par y,(x'P + fJ 0 ) > 1 — £ ; et on introduit une nouvelle 
contrainte pour borner l’erreur de classement < este. Le problème d’optimisation se 

transforme en : 

|| P || 2 + yh 

i=i 

y,(x'p + p () ) S 1 - 

et donne une solution du même type que précédemment: 

/(X) = p () + 2 OLJiX'iX. 

support 

Le paramètre y peut être réglé par F utilisateur, mais cela est délicat. On préconise une 
optimisation par validation croisée, ou avec un autre échantillon. 
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18.3.2 Changement d’espace 

Des données non séparables linéairement dans leur espace d’origine E, peuvent le deve¬ 
nir après un changement d’espace 4>(E), en général de dimension plus élevée. A une fron¬ 
tière linéaire dans <L(E), correspond une frontière non-linéaire dans E. 

L’exemple (Figure 18.14) suivant est classique avec deux groupes séparées par une parabole : 
en passant de l’espace [R 3 défini par (1, x b x 2 ) à l’espace M 6 défini par (1, x t , x 2 , x, 2 , x 2 2 , XjX-,), 
on obtient une séparation linéaire dans le sous-espace x 2 , x, 2 



Figure 18.14 


L’hyperplan optimal dans 4>(E) s’écrit /(x) = p () + 5} a L v ; < 4>(Xj) ; 4>(x) > = 0 

suppurl 

Son équation ne fait intervenir que les produits scalaires entre points transformés. 
Comme dans le chapitre 7 avec la kernel-ACP, un choix astucieux du produit scalaire 
<4>(X;) ; 4>(Xy) > = K(Xj ; x ; ) évite de calculer explicitement <D et permet d'effectuer tous 
les calculs dans E. 

n 

Le classifieur écrit alors /(x) = 2 “Dï (^(Xjil^ix)) + p 0 et la somme n’est à effectuer 
que sur les points supports. 

La capacité prédictive des SVM est élevée. Nous verrons plus loin que le risque de biais 
de surapprentissage qui paraît élevé, est maîtrisé par la maximisation de la marge, à condi¬ 
tion de ne pas chercher nécessairement une séparation parfaite dans <i>(E). 

Les exemples suivants (Figure 18.15) sont obtenus avec le noyau polynomial de degré 3 
K(x, y) = (<x, y> + c) 3 et montrent sa flexibilité (logiciel L1B-SVM): 



Figure 18.15 
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18.4 DISCRIMINATION SUR VARIABLES QUALITATIVES 

Les méthodes précédentes ne s’appliquent pas directement lorsque les prédicteurs ne sont 
pas numériques, ce qui est pourtant un cas assez courant. 

18.4.1 Discriminante sur variables indicatrices 

Une solution consiste à transformer (quantifier) les prédicteurs en variables numériques 
discrètes en attribuant des valeurs (notes ou scores partiels) à leurs modalités. On cher¬ 
chera des valeurs « optimales » en un certain sens lié aux performances attendues de la 
discrimination. 

On a vu au chapitre 9 paragraphe 9.4.1 et au chapitre 17 paragraphe 17.7.1 que cette trans¬ 
formation revient à remplacer les variables qualitatives par les indicatrices des catégories. 
Ainsi un problème de discrimination sur p variables qualitatives à m x , . . ., /»,, catégories 
revient à une analyse discriminante de y sur le tableau disjonctif des ni , 4- . . . + ni p indica¬ 
trices des prédicteurs (X,|X 2 |. . .|X ; ,). 

Cette matrice n’étant pas de plein rang, V et W ne sont pas inversibles et il y a donc une 
infinité de solutions équivalentes. On peut alors faire comme pour le modèle linéaire général et 
éliminer une indicatrice pour chaque prédicteur, ce qui équivaut à lui donner un coefficient nul. 

Dans le cas d’une discrimination entre deux classes, la fonction de Fisher calculée sur ces 
(w, 4 . . . + m p — p ) indicatrices fournit par ses coefficients la quantification recherchée. 
Cette quantification rend maximale la distance de Mahalanobis entre les centres de gravité 
des deux groupes. 

18.4.2 Discrimination sur composantes d’une ACM 

On sait que l’ensemble des composantes de l’ACM de X = (X[|X 2 |. . .\X p ) engendre le 
même espace que X. S’inspirant de la régression sur composantes principales (17.5.1) la 
méthode Disquai (Saporta, 1975) consiste à effectuer l’analyse discriminante sur une sélec¬ 
tion d’axes. En réduisant la dimension de l’espace des prédicteurs et en éliminant des dimen¬ 
sions inutiles, on assure une plus grande robustesse des résultats. 

Détaillons les formules dans le cas de deux groupes, qui on le sait est équivalent à une 
régression après recodage de y. 

Notons i) les composantes de l’ACM et Xj les valeurs propres. A l’aide de tests et aussi de 
l’expertise du statisticien, on éliminera les composantes de faible inertie ainsi que celles ne 
séparant pas suffisamment les deux groupes : il suffit d’effectuer un test de comparaison de 
moyennes sur chaque axe. Soit q le nombre de composantes conservées. Comme les com¬ 
posantes sont orthogonales, il est plus simple d’inverser V, qui est diagonale, que W. La 
fonction de Fisher étant définie à un coefficient multiplicatif près, c’est sans importance. 

La variable « score » s qui donne la valeur de la fonction de Fisher pour chaque observation 

M 

= V 1 (g, - g 2 ) = 


s’écrit alors s — Y u ; z J avec u 


j= i 
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Grâce aux formules de transition de l'ACM (paragraphe 10.1.3.3), il n’est pas nécessaire 
d’avoir à calculer pour chaque observation ses coordonnées sur les axes factoriels : il suffit 
d’effectuer la combinaison linéaire avec les mêmes coefficients u- } des coordonnées de ses 
catégories. 

En effet à un facteur multiplicatif près, on a z j = Xa J où a j est le vecteur des coordonnées 
des + ... + m v modalités sur 1’ axe n° j, d’où : 

s = T, uj Xa J = X ^ iij a j 

j=] » ■'=' _ 

grilk Je store 

Le score s'exprime alors directement comme combinaison linéaire des indicatrices des 
modalités : pour chaque individu, il suffit d’additionner les scores partiels des modalités qu’il 
prend. La formule ne comporte pas de terme constant : en pratique ce terme qui correspond au 
seuil de décision pour classer dans un groupe sera déterminé au vu des erreurs de classement. 

I 8.4.3 Un exemple de « crédit scoring » (,) 

Les données analysées, provenant du logiciel SPAD, sont relatives à 468 clients d’une 
banque. On veut prédire la qualité du client (« bon » ou « mauvais ») à partir de 6 caractéris¬ 
tiques qualitatives (voir les résultats pour le détail) totalisant 21 modalités. Il y a donc 15 axes . 

L’ACM avec la qualité client en variable supplémentaire montre un bon pouvoir prédictif : 
valeurs-test élevées pour la variable supplémentaire sur les deux premiers axes. 

Tableau 18.6 


VALEURS PROPRES 


NUMERO 

VALEUR 

PROPRE 

POURCENTAGE 

POURCENTAGE 

CUMULE 


i 

0.3401 

13.60 

13.60 

k-kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk 


0.2465 

9.87 

23.47 

kkkkkkkkkkkkkkkkfrkk'K-kkkkkkk 

3 

0.2108 

8.43 

31.90 

kkkkkkkkkkkkkkkkkkkkkkkk 

4 

0.19 4 B 

7.79 

39.69 

kkkkkkkkkkkkkkkkkkkkkk 

5 

0.1843 

7.37 

47.06 

kkkkkkkkkkkkkkkkkkkkk 

6 

0.1758 

7.03 

54.10 

kkkkkkkkkkkkkkkkkkkk 

7 

0.1700 

6.80 

60.90 

kkkkkkkkkkkkkkkkkkk 

8 

0.1597 

6.39 

67.2 8 

kkkkkkkkkkkkkkkkkk 

9 

0.1495 

5.98 

73.26 

kkkkkkkkkkkkkk k k k 

10 

0.1375 

5.50 

78.76 

-fr**+*******À-** * 

11 

0.1282 

5.13 

83.89 

kkkkkkkkkkkkk 

12 

0.1137 

4.55 

88.44 

kkkkkkkkkkkk 

13 

0.1092 

4.37 

92.81 

kkkkkkkkkkk 

14 

0.1022 

4.09 

96.90 

k k k k k k k k k k 

15 

0.0775 

3.10 

100.00 

k k k k k 


Dans la figure 18.16 les tailles des points sont proportionnelles aux effectifs des modalités : 
on identifie facilement les modalités proches des catégories de client, mais d’autres axes 
vont se révéler nécessaires. 


1 ma Le lecteur intéressé par les applications au domaine financier se reportera utilement à Bardos (2001 ) etTuiTéry (2005), 














7 Ssa Analyse discriminante et régression logistique 


Facteur 2 



Figure 18.16 











Tableau 18.7 












" 








MODALITES 




VALEURS-TE 

ST 



COORDONNEES 



IDEM 

- 

LIBELLE 

EFF 

P . ABS 

1 

2 

3 

4 

5 

1 

2 

3 

4 

5 

DISTO. 

2 


Age du client 














AG E l 

- 

moins de 23 ans 

88 

88.00 

-12.8 

2.8 

4 . 8 

9.6 

-1.1 

-1.23 

0.27 

0.46 

0.92 

-0.10 

4.3 2 

AGE2 

- 

de 23 à 40 ans 

150 

150.00 

-3.4 

-10.5 

3.6 

-9.8 

1.5 

-0.23 

-0.71 

0.25 

-0.66 

0.10 

2.12 

AGE 3 

- 

de 40 à 50 ans 

12 2 

122.00 

2.9 

0.9 

-15.5 

-1.2 

0.1 

0.22 

0.07 

-] . 21 

-0.09 

0.01 

2.84 

AGE 4 

- 

plus de 50 ans 

108 

108.00 

12.6 

8.1 

7.7 

3.2 

-0.8 

1.07 

0.68 

0.65 

0.27 

-0.07 

3 .33 

3 


Situation familiale 














CELB 

- 

célibataire 

170 

170.00 

-13.4 

-3.7 

7 . 2 

6.7 

-1.1 

-0.82 

-0.23 

0.44 

0.41 

-0.07 

1.75 

MARI 

- 

mar.i é 

221 

221.00 

10.3 

-1.1 

-9.0 

-0.2 

8.6 

0.50 

-0.05 

-0.44 

-0.01 

0.42 

I . 12 

DIVO 

_ 

divorcé 

61 

61.00 

2.5 

0.8 

“3,6 

-9.4 

-12.1 

0.30 

0.10 

-0.19 

-1.12 

-1.45 

6.67 

VEUF 

- 

veu f 

i 6 

16.00 

2.6 

11.3 

8.7 

0.3 

1.7 

0.65 

2,79 

2.14 

0.07 

0.42 

28.25 

4 


Ancienneté 














AMCl 

- 

anc. 1 an ou moins 

199 

199.00 

-9.0 

6.3 

-8.4 

-0.8 

-7.0 

-0.49 

0.34 

-0.45 

-0.04 

-0.38 

1.35 

ANC 2 

- 

anc. de 1 à 4 ans 

47 

47.00 

-2.3 

0.7 

2.2 

-8.4 

7.9 

-0.32 

0.09 

Ü .31 

-1.16 

1.10 

8.96 

ANC 3 

- 

anc. de 4 à 6 ans 

69 

69.00 

-1.9 

-3.1 

4.6 

0.3 

5.5 

-0.21 

-0.34 

0.52 

0.03 

0.61 

5.7 8 

ANC 4 

- 

anc. de 6 à 1.2 ans 

66 

66.00 

1.7 

-10.0 

6.9 

1.0 

-8.3 

0.19 

-1.14 

0.79 

0.11 

-0.95 

6.09 

ANC 5 

- 

anc. plus 12 ans 

87 

87.00 

13 .4 

3.2 

-1.5 

6.3 

5.2 

1.30 

0.31 

-0.14 

0.61 

0.50 

4.3 8 

5 


Domiciliation du sala 

„re 













Soui 

- 

clauiiciie salaire 

316 

316.00 

9.4 

-9.7 

-0.8 

6.4 

2.5 

0.30 

-0.31 

-0.03 

0.21 

0.08 

0.48 

S non 

- 

non domicile salaire 

152 

152.00 

-9.4 

9.7 

0.8 

-6.4 

-2.5 

-0.63 

0.64 

0.05 

-0.43 

-0.17 

2.08 

7 


Profession 














CAD R 

- 

cadre 

77 

77.00 

11.2 

6.4 

5.2 

-1.0 

-6 . 8 

1.17 

0.66 

0.54 

-0.10 

-0.71 

5.08 

EM PL 

- 

employé 

237 

237.00 

0.0 

—12 2 

2.8 

-1.6 

6.5 

0.00 

-0.56 

0.13 

-0.07 

0.29 

0.97 

A.UT R 

- 

profession autre 

154 

154.00 

-8.8 

8.0 

-7.0 

2.4 

-1.5 

-0.58 

0.53 

-0.46 

0.16 

-0.10 

2.04 

8 


Moyenne en cours 














EMC! 

- 

moins de 2KF encours 

98 

98.00 

— 2 r 2 

5.8 

4.4 

-11.4 

6.7 

-0.20 

0.52 

0.4 0 

-1.03 

0.60 

3.78 

EMC 2 

- 

de 2 à 5 KF encours 

308 

308.00 

-3.2 

-0.8 

-4.1 

11.0 

-0.4 

-0.11 

-0.03 

-0.14 

0.37 

-0.01 

0.52 

EMC 3 

- 

plus de 5 KF encours 

62 

62.00 

7.1 

-5.8 

0.5 

-1.7 

-7.5 

0.85 

-0.68 

0.0 6 

-0.20 

-0.89 

6.55 

]. 


Type de client 














BON 

- 

bon client 

237 

237.00 

7.9 

-6.2 

-0.1 

6.0 

0.0 

0.36 

-0.28 

-0.01 

0.27 

o.oo ; 

0.97 

MAUV 

- 

mauvais client 

231 

231.00 

-'7.9 

6.2 

0.1 

-6.0 

0.0 ! 

-0.37 

0.29 

0.01 

-0.28 

o.no ! 

1.03 : 

— .J 
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Tableau 18,8 

Corrélations 

avec la F.L.D. Coefficients 


Facteurs seuil = 0.093) de la F.L.D. Probabilité 


F 

1 

0.368 

1.886240 


0.0000 

p 

0 

-0.289 

-1.736910 


0.0000 

p 

3 

-0.005 

-0.034836 


0.8893 

F 

4 

0.277 

1.873010 


0.0000 

F 

5 

0.000 

0.001670 


0.9950 

F 

6 

-0.011 

-0.079781 


0.7711 

F 

7 

-0.060 

-0.437113 


0.1174 

F 

8 

-0.094 

-0.702389 


0.0149 

F 

9 

0.057 

0.441749 


0.1378 

F 

10 

0.072 

0.579235 


0.0622 

P 

il 

0.046 

0.383689 


0.2323 

F 

12 

-0.096 

-0.853755 


0.012 6 

F 

13 

-0.009 

-0.084949 


0.8070 

F 

1 4 

-0.077 

-0.720454 


0.0456 

H 

15 

0.054 

0.584582 


0.1573 

R2 = 0 

.33 515 

P 

= 15.19020 

pp.OBA 

= 0.000 

D2 = 2 

. 00811 

T 2 

= 234.91037 

PRQBA 

= 0.000 


Tableau 18.9 

Fonction linéaire de Fisher reconstituée à partir des variables d’origine 




Coef fLcients 
de la F.L.D. 

Ecart-typt 

bootstrap 

Age du client 

moins de 23 

ci ns 

-1.311660 

0.904747 

de 23 à 40 

ans 

-0.461863 

0.920693 

de 40 à 50 

ans 

0.6734 Si 

0.932203 

plus de 50 

ans 

0.949445 

0.910071 

Situation familiale 

célibataire 


1.141330 

0.697428 

marié 


0.341793 

0.525616 

divorcé 


-2.254970 

1.057110 

veut 


-3.251.150 

2.230390 

Ancienneté 

anc. 1 an ou moins 

-4.034720 

0.490477 

anc. de 1 è 

4 ans 

-0.303805 

1.830950 

anc. de 4 à 

6 ans 

1.931500 

0.630443 

anc. de 6 à 

12 ans 

2.714630 

1.091830 

anc. plus 12 ans 

Domiciliation du salaire 

6.071820 

1.190030 

domicile sa 

la ire 

3.663 660 

0.538523 

non domicil 

e salaire 

-7.616560 

1.119560 

Profession 

Cadre 


3.846700 

1.095720 

Employé 


0.062360 

0.535443 

profession 

autre 

-2.019320 

0.660032 

Moyenne en cours 

moins de 2K 

F encours 

-3.395870 

1.134600 

de 2 à 5 KF 

encours 

1.929690 

0.239943 

oius de 5 K 

F encours 

j _ 68467 0 

0.93986 6 
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Le tableau 18.8 indique que les 15 dimensions ne sont pas toutes utiles. On élimine les 
facteurs n°3, 5, 6, 7. 9, 11, 13, 15, ce qui ramène a une discrimination dans un espace à 
7 dimensions. Les composantes étant orthogonales, les coefficients ne changent pas après 
élimination (à un facteur près). 

Le tableau 18.9 donne la grille de score brute avec une estimation par un bootstrap avec 1000 
tirages des écart-types des coefficients ; rappelons qu’il n’y a en effet pas de formule per¬ 
mettant d’obtenir ces erreurs standard. 

Le score d'un célibataire de 30 ans ayant un compte depuis 5 ans etc. s’obtient alors en 
effectuant la somme —0.461863 + 1.141380 + 1.9315 + .. . 

De telles valeurs ne sont pas commodes à utiliser et une pratique courante consiste à transfor¬ 
mer linéairement les notes de score pour qu’elles soient comprises entre 0 et 1000. On ajoute aux 
coefficients de chaque variable une constante telle que la plus mauvaise note soit 0 : ici on ajou¬ 
te + 1.31166 aux modalités de « âge du client » , -4-8.25115 aux modalités de « situation fami¬ 
liale » etc. On effectue ensuite une multiplication par une constante pour que le maximum soit de 
1000. Le tableau 18.10 fournit ces scores après avoir réordonné variables et modalités selon f am¬ 
plitude de variation des scores pour mettre en évidence les variables et les modalités influentes. 

Tableau 18.10 


COEFFICIENTS REORDONNES DE LA FONCTION SCORE 


IDEM LIBELLES 

COEFFICIENTS 

DU SCORE 

HISTOGRAMMES 

DES POINTS DE SCORE 

8 . Moyenne en cours 

ENC3 - plus de 5 KF encours 

ENC2 - de 2 à 5 KF encours 

ENCl - moins de 2KF encours 

236.93 

202.51 

0.00 

■k ~k -k ~k ■kk'k-k-kÿrk-k'k'k'k'k-X'k-k 

'kir-k-k-k--k-k-k-k--ie-k-kk'kk-k-k 

5 . Domiciliation du salaire 
Soui - domicile salaire 

Snon - non domicile salaire 

221.24 

0.00 

jr’k'x , -k'kk'kk'k'k'k'k‘rr‘k'k'k-k , k'k 

■k 

4 . Ancienneté 

ANC5 - anc. plus 12 ans 

ANC4 - anc. de 6 à 12 ans 

ANC3 - anc. de 4 à 6 ans 

ANC2 - anc. de 1 à 4 ans 

ANC1 - anc. 1 an ou moins 

198.22 

132.37 

117.01 

63.37 

0.00 

'kk-k-kk’ÿrkkkkkkkk-k'fr'k 

kk'kk'kkkkkkk 

jrkkk'kkk'k-kir 

****** 

3 . Situation familiale 

CELB - célibataire 

MARI - marié 

DIVO - divorcé 

VEUF - veuf 

184.21 

168.53 

117.60 

0.00 

k-kkk-kkkkkkkkk-kkk 

kkk'kk'k'kkk'kkjr-kk 

■k'k'k-k-k'k-k-jr-kir 

k 

7 . Profession 

CADR - cadre 

EMPL - employé 

AUTR - profession autre 

115.05 

40.83 

0.00 

-kkkkkkkkk-k 

k -k 

2 . Age du client 

AGE4 - plus de 50 ans 

AGE3 - de 40 à 50 ans 

AGE2 - de 23 à 40 ans 

AGEl - moins de 23 ans 

44.35 

38.93 

16.67 

0.00 

■k-k kk 

-k ~k fr 

k 

* 
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En représentant simultanément les fonctions de répartition du score des deux groupes, il est 
alors possible de choisir des seuils de décision en fonction des risques de mauvaise classifica¬ 
tion, avec éventuellement une zone d’incertitude. La figure 18.17 illustre cette pratique : si l’on 
décide qu’un client ayant un score inférieur à 550 est « mauvais » on détecte environ 60 % de 
cette catégorie, tout en ne déclarant « mauvais » que 10 % des « bons ». Inversement si le seuil 
pour être classé « bon » est 750, on reconnaît environ la moitié de cette catégorie, et seuls 9.5 % 
des « mauvais » sont considérés à tort comme des « bons ». 


G2 


Variable cible: Type de client - Modalité cible: bon client 


G1 



«sa Classé G2 mauvais client’ 
■■b» Non classé : zone d’indécision 
sas: Classé G1 : ‘bon client' 


□ Bien classé par le modèle 
Non classé par le modèle 
i=i ‘mauvais client' mal classé dans G1 
aai ‘bon client' mal classé dans G2 


Figure 18.17 


18.5 ANALYSE DISCRIMINANTE PROBABILISTE 

18.5.1 La règle bayésienne et le modèle gaussien 

Le modèle suivant fournit le cadre inférentiel nécessaire à l’analyse discriminante. 

On suppose que les k groupes sont en proportion p { p 2 , .... P/, dans la population totale et 
que la distribution de probabilité du vecteur observation x = (_v h ..., x p ) est donnée pour 
chaque groupe j par une densité (ou une loi discrète) 

Observant un point de coordonnées (.y,, x 2 , ..., a ; ,) la probabilité qu’il provienne du groupe 
j est donnée par la formule de Bayes : 
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Pi /,(x) 

P(Gjls) = 

S P/^-(x) 

7=1 

La règle bayésienne consiste alors à affecter l’observation x au groupe qui a la probabilité 
a posteriori maximale. 


18.5.1.1 Le cas d'égalité des matrices de variance covariance 

Si X, — X 2 = ••• = X* — X, la règle devient linéaire. En effet ln (det Xy) est une constan¬ 
te et (x — |Xy) X~ ! (x — jul ; ) est alors égale à A 2 (x. jx,), distance de Mahalanobis théorique 
de x à (Xj 

En développant et en éliminant x'X _1 x qui ne dépend pas du groupe on a : 


max | x'X i jxjX V; + ln Pj | 


. il , 

Si X est estimé par-W. la rèale bayésienne correspond à la règle géométrique lors- 

n — k 

qu’il y a égalité des probabilités a priori. La règle géométrique est alors optimale. 

La probabilité a posteriori d’appartenance au groupe j est proportionnelle à : 


pyexp -~A-(x, |x 7 ) 


Les dénominateurs étant les mêmes pour les k groupes on doit donc chercher le 
maximum de : 

Pjfjix) 

Il est donc nécessaire de connaître ou d’estimer f{\). Diverses possibilités existent ; la plus 
classique étant de supposer que x suit une loi A^/jx, Xy) pour chaque groupe : 


r ——,exp --(x-iiyVS/'fx-it;) 


(lu) 1 ' 12 (det X,)’ 


La règle bayésienne max Pjf ](\) revient donc en passant en logarithmes à minimiser : 

(x - jx/X/ 1 (x - jxy) - 2 ln pj + ln (det X/) 

Lorsque les X ; - sont différents cette règle est donc quadratique et il faut comparer k fonc¬ 
tions quadratiques de x. 

X; est en sénéral estimé par —-— V; et |x. par g-. 

u—1 
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18.S. 1.2 Deux groupes avec égalité des matrices de variance 


On affectera x au groupe 1 si : 


x'X 1 (pi, - pu) > ^(px, + fu)X 1 (|JL, - pu) + ln — 

2 Pi 


Si p i = pi = 0.5 on trouve la rèsle de Fisher en estimant X par-W. 

n — 2 

Soit : 


1 P 

Six) = x'X -1 (m-i “ pu) ~ — (M-i + pu )-” 1 (|x, - pu) = ln — 

2 P\ 


On affectera x au groupe 1 si Six) > 0 et au groupe 2 si S(x) < 0. 

La fonction £(x) appelée score ou statistique d’Anderson est liée simplement à la proba¬ 
bilité a posteriori d’appartenance au groupe 1. 

On a en effet : 


F(G,/x) = P 


Pi/i (x) 


Pi/i(x) + P2ÀW 


d’où : 


1 , , P 2 / 2 OO , , Pi 

— = 1 H-= 1 -I-exp 

P PiM*) Pi 


--(x - pu)X 1 (x - pu) + - (x - |1,)X 1 (x - |X,) 


d’où ln — 
P 


1 1 p - 

â ~ 1 = ~ ex P 
P p j 


- A 2 (x; pt|) — - A 2 (x; pu) 


1 - -S(x). 


Soit : 


P(G/x) = 


1 

1 + exp (—5(x)) 


exp (S(x)) 

1 + exp (5(x)) 


P est donc fonction logistique du score. 

Lorsque p { = p 2 = 1/2 : 

1 

p ~- 

1 + exp (A 2 (x: px,) - A 2 (x; pt 2 ))j 

on remarque que modifier les probabilités a priori se traduit simplement par un changement du 
terme constant. Dans de nombreuses aplications, ce qui compte essentiellement est la combinai¬ 
son linéaire des variables, le terme constant étant laissé au choix du praticien (voir plus haut). Dans 
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ces conditions, le fait que les proportions des groupes soient conformes ou non à la réalité devient 
sans importance, ce qui compte pour la qualité des estimations étant la taille des échantillons. 

Voici à titre d’exemple le tableau 18.11 donnant les affectations des 45 premières observations 
des données d'infarctus selon la règle précédente. L’astérisque indique une erreur de classement 

Tableau 18.11 


Groupe Groupe 

réel attribué P(Gi/x) P(G z /x) 


1 

SURVIE 

SURVIE 


0.4515 

0.5485 


DECES 

DECES 


0.8140 

0.1860 

3 

DECES 

DECES 


0.9597 

0.0403 

4 

SURVIE 

SURVIE 


0.2250 

0.7750 

5 

DECES 

.DECES 


0.8112 

0.1888 

6 

DECES 

DECES 


0.8928 

0.1072 

7 

SURVIE 

SURVIE 


0.3202 

0.6798 

8 

SURVIE 

DECES 

* 

0.8711 

0.1289 

9 

SURVIE 

SURVIE 


0.0984 

0.9016 

10 

SURVIE 

SURVIE 


0.0797 

0.9203 

11 

SURVIE 

SURVIE 


0.013 8 

0.9862 

12 

SURVIE 

SURVIE 


0.0160 

0.9840 

13 

SURVIE 

SURVIE 


0.0052 

0.9948 

14 

SURVIE 

SURVIE 


0.0105 

0.9895 

15 

SURVIE 

SURVIE 


0.0019 

0.9981 

16 

SURVIE 

SURVIE 


0.0258 

0.9742 

17 

SURVIE 

SURVIE 


0.2011 

0.7989 

18 

SURVIE 

SURVIE 


0.2260 

0.7740 

19 

SURVIE 

SURVIE 


0.0022 

0.9978 

20 

SURVIE 

SURVIE 


0.1222 

0.8778 

21 

SURVIE 

SURVIE 


0.0014 

0.9986 

22 

DECES 

DECES 


0.8629 

0.1371 

23 

DECES 

SURVIE 

k 

0.4804 

0.5196 

24 

DECES 

DECES 


0.9900 

0.0100 

25 

DECES 

DECES 


0.5845 

0.4155 

26 

DECES 

DECES 


0.7447 

0.2553 

27 

DECES 

DECES 


0.7067 

0.2933 

28 

DECES 

SURVIE 

k 

0.4303 

0.5697 

29 

SURVIE 

SURVIE 


0.1118 

0.8882 

30 

SURVIE 

DECES 

k 

0.5734 

0.4266 

31 

SURVIE 

SURVIE 


0.2124 

0.7876 

32 

DECES 

DECES 


0.9928 

0.0072 

33 

DECES 

DECES 


0.7301 

0.2699 

34 

SURVIE 

DECES 

k 

0.5354 

0.4646 

35 

DECES 

DECES 


0.9943 

0.0057 

36 

SURVIE 

SURVIE 


0.1218 

0.8782 

37 

SURVIE 

SURVIE 


0.2757 

0.7243 

38 

SURVIE 

SURVIE 


0.1759 

0.8241 

39 

DECES 

DECES 


0.9555 

0.0445 

4 0 

SURVIE 

SURVIE 


0.0695 

0.9305 

41 

DECES 

DECES 


0.9762 

0.0238 

42 

DECES 

DECES 


0.9785 

0.0215 

43 

SURVIE 

SURVIE 


0.3240 

0.6760 

44 

SURVIE 

SURVIE 


0.2121 

0.7879 

45 

DECES 

DECES 


0.7880 

0.2120 
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Dans l’exemple infarctus, le logiciel a supposé par défaut l’égalité des probabilités a 
priori , ce qui est contestable. Les probabilités a posteriori sont donc dépendantes de cette 
hypothèse. 

Sous réserve du caractère réaliste de l’hypothèse de multinormalité, ces résultats sont 
donc plus précis qu’une simple décision selon la distance la plus courte. Le calcul de proba¬ 
bilité a posteriori montre ici que 4 classements erronés sur 5 se sont produits dans une zone 
d'incertitude (probabilités voisines de 0.5). 

18.5.1.3 Taux d’erreur théorique pour deux groupes avec 

Quand p ] = p 2 , la règle de classement théorique est d'affecter au groupe 1 si : 

S(x) = x'S " 1 (Mi “ M;) - ^(Mi + (Mi - |x 2 ) > 0 

La probabilité d’erreur de classement est donc : 

P(S(x) > 0/x G N p (Moi 2)) 

La loi de SYx) est une loi de Gauss à 1 dimension comme combinaison linéaire des com¬ 
posantes de x. 

E(S(x)) = m'z-" 1 (Mu ~ M:) “ “(Mi + M :)'^ -1 (Mi “ Mi) 

= ^(Mi “ M2)'-' 1 (Mi ~ M:) = 

V(S(x)) = (mj “ M2)'^"'SS _i (mi - Mi) = 

d’où : 

S(x) suit une LG ^ ~ A-;; A ; ,^ si x G G 2 
La probabilité de classer dans le groupe 1 une observation du groupe 2 est : 


P(l/2) = P 




Elle est égale à P(2/l). Cette relation donne une interprétation concrète à la distance de 
Mahalanobis. 

S' Pi r 1 p 2 on trouve : 

P(l/2) — p \ U > — H— 7 - In — ) 

\ ^ \ Pi) 

Pi 2/1) = p(f7>%--J-ln—) 

V 2 A /; pj 

Lorsque Mo Ma^ S sont estimés, A(x) ne suif plus une loi normale et utiliser D p comme 
estimation de A p conduit à une estimation biaisée des probabilités d’erreur de classement : il 
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y a en moyenne sous-estimation de la probabilité globale d’erreur p ] P( 2/1) + p 2 P( 1/2), due 
entre autres raisons au fait que Dj, surestime A j, (voir chapitre 15. paragraphe 15.5.6C). 

Pour l’exemple des infarctus comme D p — 2.223 on aboutit à une estimation du taux 
d'erreur égale à P{U > 1.11) = 0.13. 

, n — p — 1 ^ n 

L'utilisation de l’estimation sans biais de A-,--— D- — p -= 4.37 conduit à 

n — 2 /; | n 2 

une estimation du taux d’erreur voisine de 15 %. 

La règle bayésienne peut cependant conduire à des décisions absurdes lorsque les proba¬ 
bilités a priori sont très déséquilibrées. Supposant par exemple que p, = 0.01 et p 2 — 0.99, 
ce qui correspond à la détection d’un groupe rare. Il est alors facile de voir que pratiquement 
toutes les observations seront classées en G2 et aucune en G/. Notons qu’une telle règle 
donne un pourcentage global de bons classement de 99 % ! (moyenne de 0 % sur le groupe 
1 et 100 % sur le groupe 2 ). 

yj (x) 

En effet, si l’on écrit la formule de Bayes sous la forme P(G 1/x) = p,--—-, il 

Pji(x) + Pif 2 (x) 

f[ (x) 

faudrait que- 1 —-> 50 pour que la probabilité a posteriori dépasse 0.5. ce qui 

Pi/,(x) 4- p 2 f 2 (\) 

n’est possible que si /,(x) > 99/ 2 (x), ce qui est fort improbable. 


18.5.1.4 Tests et sélection de variables 


L’hypothèse d’égalité des matrices S f peut être testée au moyen du test de Box qui géné¬ 
ralise celui de Bartlett pour le cas unidimensionnel. 

Si l’hypothèse X, = X 2 — .. . — X k est vraie, la quantité : 


2 p 2 + 3p—l \ 
6(p + \)(k - Y)/ 




(n - k) ln 


n 

n — k 


W 



1 ) ln 



suit approximativement une loi 


x 2 « 


p(p + 1 )(/c ~ 1 ) 
O 


degrés de liberté. 


Si l’on rejette l’hypothèse d’égalité, doit-on pour autant utiliser les règles quadratiques ? 
Cela n’est pas sûr dans tous les cas. Tout d’abord le test de Box n’est pas parfaitement fia¬ 
ble, ensuite l’usage de règles quadratiques implique l’estimation de bien plus de paramètres 
que la règle linéaire, puisqu’il faut estimer chaque Z 7 -. Lorsque les échantillons sont de peti¬ 
te taille, les fonctions obtenues sont très peu robustes et il vaut mieux utiliser une règle 
linéaire malgré tout. 


Pour deux groupes le résultat suivant est à l’origine des méthodes classiques de sélection 
de variables : 


Soit un sous-ensemble de / variables parmi les p composantes de x. 
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Supposons que A- = Aj ; en d’autres termes les p — / variables restantes n’apportent 
aucune information pour séparer les deux populations; alors : 


(n, + n 2 ~ P ~ jjn, n 2 (Pj - Dj) 

(p — /)(/rj + n 2 )0h + ”2 ~ -) + npi 2 Dj 


F(p — /; n, + n 2 ~ p ~ 1) 


On peut ainsi tester l’accroissement de la distance de Mahalanobis apporté par une nou¬ 
velle variable à un groupe déjà constitué en prenant / = p — 1. 

Lorsque l’on Fait de la discrimination entre plus de deux groupes, les tests sont ceux uti¬ 
lisant le A de Wilks. 

Le test d’égalité des k espérances pi, = pu = . . . = jx A est le suivant : 

, = twj_ = |W| = 1 

|V| |W + B| |W~'B + I| 


suit la loi de Wilks de paramètres /?, n — k, k — 1 sous H 0 : pi, = pu = .. . = pq. 


car uV, n W, uB suivent respectivement les lois de Wishart à n — 1, n — k, k — 1 degrés de 
liberté. 

Si k = 3 on utilisera la loi exacte de A et non une approximation : 


1 - jX _ p 
VÂ n - p 


-F(2p-2(n-p- 2) 


Si k — 2, le test de Wilks et le test de la distance de Mahalanobis ( H () : A - = 0) sont iden¬ 
tiques car B étant de rang 1, on a : 


A = 


1 


t n,n-, 

1 + Dl -—- 

(n, + n 2 ){n , + n 2 - 2) 


1 

p. + 1 


= 1 


- k 


Le test de H 0 : pi,- = piVz peut s’effectuer également en utilisant comme statistique de test 
la trace de W~' B appelée statistique de Lawley-Hotelling qui suit la loi du Tl généralisé de 
Hotelling approximable par un n- 

La trace de V -1 B est appelée trace de Pillai. Pour l’introduction pas à pas de variables en 
discriminante à k groupes on utilise souvent le test de variation de A mesuré par : 

n — k — p ( A„ \ 

k — 1 V A ;) + 1 J 


que l’on compare à un F*.- 

Comme en régression multiple, il existe divers algorithmes de sélection : ascendant, descen¬ 
dant etc. D’ailleurs pour deux groupes, les méthodes sont identiques (voir paragraphe 18.2.3). 
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L’application d’une méthode ascendante aux données « infarctus » conduit aux résultats 
suivants : 


The STEPDISC Procedure 



Forward 

Sélection: Step 

1 



Statistics 

for Entry, DF = 

1, 99 


Variable 

R-Square 

F Value 

Pr > F 

Tolérance 

FRCAR 

0.0535 

5.60 

0.0200 

1.0000 

INCAR 

0.4826 

92.33 

<.0001 

1.0000 

INSYS 

0.4493 

80.75 

<.0001 

1.0000 

P RDI A 

0.2228 

28.37 

<.0001 

1.0000 

PAPUL 

0.1844 

22.38 

<.0001 

1.0000 

P v'E HT 

0.0719 

7.67 

0.00 67 

1.0000 

REPUL 

0.4198 

71.62 

<.0001 

1.0000 

a variable INCAR est alors sélectionnée car la la plus explicative. 



Forward 

Sélection: Step 

2 



Statistics 

for Entry, DF = 

1, 98 



Partial 




Variable 

R-Square 

F Value 

Pr > F 

Tolérance 

FRCAR 

0.0461 

4.73 

0.0320 

0.9874 

INSYS 

0.0265 

2.66 

0.1056 

0.2130 

PRDIA 

0.1089 

11.98 

0.0008 

0.8699 

PAPUL 

0.1223 

13.66 

0.0004 

0.9274 

P VENT 

0.0110 

1.09 

0.2994 

0.9205 

RF.PUL 

0.0622 

6.50 

0.012 4 

0.4117 


C’est ensuite la variable PAPUL et la sélection s’arrête car plus aucune variable n’est 
significative au pas n a 3 conditionnellement aux choix précédents. 

Forward Sélection: Step 3 


Statistics for Entry, DF = 1, 97 


Variable 

Partial 

R-Square 

F Value 

Pr > F 

Tolérance 

FRCAR 

0.0107 

1.05 

0.3090 

0.8104 

INSYS 

0.0013 

0.13 

0.7197 

0.1832 

PRDIA 

0.0003 

0 .03 

0.8545 

0.1259 

P VENT 

0.0020 

0.19 

0.6609 

0.8777 

REPUSL 

0.0000 

0.00 

0.9784 

0.1994 


18.5.2 Méthodes « non paramétriques » 


On ne fait pas d’hypothèse spécifique sur la famille de loi de probabilité. 


Des variantes multidimensionnelles de la méthode du noyau permettent d’es’timer/)(x). 


/,(*> = -r 2 * 

"jh ,-.i 


X - 
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où K est une densité multidimensionnelle. 

La discrimination « par boules » en est un cas particulier : on trace autour de x une boule 
de rayon p donné dans W et on compte le nombre d’observation kj du groupe j dans cette 
boule. On estimera alors directement P(Gj/x) par : 


Remarque : La boule peut être vide si p est trop petit. 

Une des méthodes les plus utilisées est cependant la méthode des k plus proches voisins. 
On cherche les k points les plus proches de x au sens d’une métrique à préciser et on classe 
x dans le groupe le plus représenté : la probabilité a posteriori s’obtient comme pour la dis¬ 
crimination par boules mais n’a pas grand sens si k est faible. 

La méthode du noyau est en théorie optimale, mais est cependant peu utilisée car le régla¬ 
ge des paramètres de lissage est assez délicat. 

18.6 RÉGRESSION LOGISTIQUE BINAIRE (DEUX GROUPES) 

Au paragraphe 18.5.1.2 on a établi sous les hypothèses de normalité et égalité des 
matrices de variance covariance que la probabilité a posteriori d’appartenance au groupe 
1 se mettait sous la forme d’une fonction logistique du score, lui-même combinaison 
linéaire des variables. La régression logistique, appelée également modèle “logit”, 
consiste à poser cette relation comme hypothèse de départ, ce qui est donc un modèle 
plus large que celui de l’analyse discriminante probabiliste. La régression logistique a 
été introduite en 1944 par Berkson en biostatistique, puis en 1973 par McFadden en 
économètrie. 


P(G 1/x) = tt(x) = 


gPo + Pl- r l + - ■ ■ + Pr l 'p 

[ q_ Ê ,P(] + Pni + -■ +p r r,, 


l q. gPn + H'x 


Ce modèle est souvent qualifié de semi-paramétrique, dans la mesure où on modélise le 
f (x) 

rapport des densités '-au lieu de chacune. On notera P(Gl/x) = P(Y = I). 

/:(x) 


Pour des compléments, en particulier pour le cas polytomique, on se reportera à 
J.J. Droesbeke et al. (2005). 


18.6.1 Interprétation 

Le choix de la fonction logistique conduit à une expression comprise entre 0 et 1, ce qui 
convient à une probabilité, et correspond souvent à une bonne représentation de certains phé¬ 
nomènes. 

Les coefficients du modèle sont liés aux odds-ratios ou « rapport de cotes » de la manière 
suivante. 



476 


1 S™Analyse discriminante et régression logistique 


Considérons tout d’abord le cas d’une seule variable explicative binaire. Par exemple 
x = 1 si l’on fume, .v = 0 sinon et Y = 1 désigne la survenance d’une maladie. 

£jPii' r 3i 

La probabilité d’être malade si l’on fume est P(Y = \/x — 1) =-r—- que l’on corn- 

1 4- V' 

pare tout d’abord à la probabilité de ne pas être malade si l’on fume : 


W =0/,= 1)=1-P(K=1/,= 1) = tt - s - s 


L’odds est le rapport de ces deux probabilités P (Y — l/.v = 1 )IP(Y = O/.v — 1) analogue à 
la « cote » des parieurs. 

On effectue ensuite les mêmes calculs pour les non fumeurs : la probabilité d’être malade 


,P» 


est P(Y = \/X = 0) 


+ e Bn 


, celle de ne pas être malade P (Y — \/X = 0) = 


1 4- 


P(Y = \/x = 1 )/P (Y = 0/a- = 1) 

L’odds ratio est alors : OR ~ ---— = c’est le facteur par 

P(Y = 1/a = 0) IP (Y = 0/a = 0) F 

lequel la cote est multipliée lorsque x passe de 0 à l. Y OR est supérieur à 1 s’il y a aggravation. 
Plus généralement pour une variable explicative numérique, on a : 


tt(a + l)/(l - tt(a + 1)) 
OR = ---= 

TT(A)/(1 - tt(a)) 


mais l’interprétation et la valeur de l’odds ratio dépendent de l’unité de mesure de la variable : si 
a désigne la quantité quotidienne de tabac, le rapport ne sera pas le même selon que a s’exprime 
en nombre de cigarettes, ou en nombre de paquets. Comme en régression linéaire, le produit 
p.v reste fixe. 

On peut sans difficulté utiliser des prédicteurs qualitatifs de la même manière que dans le 
modèle linéaire général. Chaque variable qualitative à m modalités est remplacée par m - 1 
indicatrices après élimination d’une des modalités, dite modalité de référence, qui aura un 
coefficient nul. Les comparaisons de coefficients se font alors par rapport à cette modalité : 
une valeur proche de zéro ne signifie pas qu’une modalité est sans effet, mais qu’elle est pro¬ 
che de la modalité de référence. 


B 8.6.2 Estimation 


Elle s’effectue par la méthode du maximum de vraisemblance à partir d’un échantillon iid 
de n observations (y^Xj) prélevées dans lu population totale. La vraisemblance correspond 
d’habitude à la probabilité d’observer les (_y„ x s ) mais il s’agit ici d’une vraisemblance condi¬ 
tionnelle puisque l’on ne modélise que tt(x) : 


£<Po. P) 


n 


/ gPo+p-* y,/ 
Il + efc+P'V \ l 


x y -y, 

i + y 


= n*(X,F'(l - TT(X, )) 1 


/= I 
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Notons Tîj = 7T(Xi). En annulant les dérivées par rapport aux (3, de la log-vraisemblance ; 


£(P 0 , P) = logL (P 0 . p) = Ë [ 3i 1 og TT f + (1 - _v,) log( 1 - tt,)] 


On aboutit au système d’équations : 


dm 

aPo 

dl(p) 

ap,- 


2 ( V/ ” Kl) = 0 

i= ! 

Ë-vKy,- - tt/) = o j = i. p 


qui n’a pas de solution analytique et se résout par des procédures de calcul numérique. 

On obtient la matrice de variance-covariance asymptotique des estimateurs, d’où les 
erreurs standard des coefficients, en appliquant les résultats du chapitre 13. paragraphe 13.4 
par inversion de la matrice d’information de Fisher : 


V(0) = 


■d 2 m 

rip 2 


P=3 


Ë'ÔO - TTf) - TT/) 


2 -Vf TT,- ( 1 - TTf) Ë Cvf) 2 ^ ( 1 “ TT,) 

/=1 i=l 


.i- -vïT 

(x'vxr 1 


TT, (1 - TT,) 


(i - 


!.. A',’ 


n\ 


-1 


J / 


Le tableau 18.11 donne les résultats de la procédure Logistic de SAS pour les données 
infarctus (on modélise la probabilté de décès). Le khi-2 de Wald est égal au carré du rapport 
du coefficient estimé à son erreur standard estimée : il est analogue au carré du T de Student 
de la régression linéaire multiple. 

Aucun coefficient n’apparaît significatif, ce qui s’explique par un phénomène de multi- 
colinéarité marqué. 

Les estimations précédentes supposent un échantillonnage aléatoire simple dans une 
population avec pour conséquences que les effectifs observés de G 1 et G2 sont aléatoires 
d’espérances respectives np , et np 2 . Dans de nombreuses applications pratiques on utili¬ 
se un échantillonnage stratifié (cf chapitre 20) où /?, et n 2 sont fixés et où les proportions 
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Tableau 18.11 


Paramètre 

DF 

Estimation 

Erreur 

std 

Khi 2 

de Wald 

Pr > 

Khi 2 

Odds 

ratio 

Limites de 
confiance à 95 % 

Intercept 

1 

-1.3378 

9.5500 

0.0196 

0.8886 




FRCAR 

1 

0.0474 

0.0899 

0.2786 

0.5976 

1.049 

0.87 9 

1.251 

INCAR 

1 

-5.7825 

5.3189 

1.1819 

0.2770 

0.003 

<0.001 

103.790 

INS Y S 

1 

0.1102 

0.3935 

0.07 84 

0.7795 

1.116 

0.516 

2.414 

PROIA 

1 

0.0390 

0.1950 

0.0401 

0.8414 

1.040 

0.709 

1.524 

PAPUL 

1 

0.1511 

0.2331 

0.419 9 

0.5170 

1.163 

0.73 6 

1.837 

PVENT 

1 

0.0542 

0.0789 

0.4719 

0.4921 

1.056 

0.904 

1.232 

REPUL 

1 

-0.0001 

0.0039 

0.0000 

0.9978 

1.000 

0.992 

1.008 


Pi et p 2 ne sont pas respectées : en particulier il est courant de sur-représenter le groupe 
le plus rare. On montre alors, comme pour l'analyse discriminante, que seule change 

l'estimation du terme constant p 0 à laquelle il suffit d’ajouter ln ( —Y On prendra garde que 

\P-/ 

si les probabilités a priori sont inconnues le terme constant ne pourra être estimé et que donc 
les probabilités a posteriori seront incorrectes (définies à une transformation monotone 
près). S’il agit seulement de calculer un score de risque, c’est sans gravité. 

18.6.3 Tests et sélection de variables 

Trois méthodes sont disponibles pour tester l'apport d’une variable au modèle : 

® Le test de Wald. déjà présenté, 

® Le test du rapport des vraisemblances qui consiste à calculer pour chaque variable 

Vraisemblance sans la variable 
Vraisemblance avec la variable 



® Le test du score £/(P)'jj [7(p Wo )J~ l <7(P)p ; , où J est la matrice d’information de Fisher et 
U le vecteur des dérivées partielles de la log-vraisemblance estimés sous la contrainte p^ = 0. 
En régression logistique simple, le score est égal à nr 2 , où r est le coefficient de corrélation 
linéaire (abusif!) entre Y et.v 

Ces trois tests suivent asymptotiquement un khi-deux à un degré de liberté sous l’hypo¬ 
thèse de nullité du coefficient théorique. La figure 18.18 illustre le comportement de la log- 
vraisemblance et permet de comparer ces trois tests qui donnent en général des résultats 
équivalents : le test de Wald compare l’écart entre le coefficient théorique et sa valeur esti¬ 
mée en abscisse, le test du rapport des vraisemblances compare, la différence en ordonnée et 
le test du score compare à zéro la pente de la tangente au point théorique. 

Ces tests peuvent être utilisés pour des algorithmes de sélection (ascendante, descendante 
ou complète). La liste des meilleurs modèles (selon la valeur du khi-deux associé au score) de 
une à 7 variables est donnée dans le tableau 18.12. 
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Figure 18.18 


Tableau 18.12 

Nombre de 


.ables 

Khi 2 

Variables incluses 

dans 

le modèle 

1 

48.7385 

INCAR 





2 

55.1304 

INCAR 

PAPUL 




3 

55.6196 

FRCAR 

INCAR 

PAPUL 



A 

56.1043 

FRCAR 

INCAR 

INSYS 

PAPUL 


5 

56.2361 

FRCAR 

INC AP. 

INSYS 

PAPUL 

P VENT 

6 

56.3037 

FRCAR 

INCAR 

INSYS 

PAPUL 

PVEMT REPUL 

7 

56.3169 

FRCAR 

INCAR 

INSYS 

PRDIA 

PAPUL PVEMT 


On retiendra le modèle à deux variables incar papul, les deux mêmes qui avaient été 
sélectionnées en analyse discriminante d’où le modèle : 





Erreur 

Khi 2 

Pr > 

Odds 

Limites de 

Paramètre 

DF 

Estimation 

std 

de Wald 

Khi 2 

ratio 

confiance à 95 

Intercept 

1 

2.9331 

1.7855 

2.6985 

0.1004 



INCAR 

1 

-4.54 91 

0.9402 

23.4083 

<.0001 

0.011 

0.002 0.067 

PAPUL 

1 

0.2015 

0.0622 

10.4937 

0.0012 

1.223 

1.083 1.382 


Ces tests peuvent servir à valider globalement un modèle c’est à dire à tester la nullité simul¬ 
tanée de tous les coefficients p (sauf de la constante). Ainsi la vraisemblance en l’absence 
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d’effet des p variables vaut J puisque P(F = 1) ne dépend plus des .v et 

s’estime, dans le cas d’échantillonnage global itd par la proportion d’observations de G 1 . 


On comparera — 21nL + 21n 


— J ) à un khi-deux à p degrés de liberté. 


18.6.4 Comparaison avec l’analyse discriminante linéaire 

La régression logistique est souvent opposé à tort à l’analyse linéaire discriminante de 
Fisher, certains praticiens croyant que la régression logistique serait plus « scientifique » ; 
l’incompréhension de la propriété indiquée en 18.2.3 qui montre que la fonction de Fisher 
peut s’obtenir à l’aide d’une régression ordinaire a également beaucoup joué. En réalité si 
les deux modèles diffèrent par leurs hypothèses, ils sont en réalité assez proches et les sco¬ 
res obtenus sont dans la pratique très voisins. A titre d’exemple le coefficient de corrélation 
entre les scores de Fisher et logistique dans le cas infarctus vaut 0.99881 . . . 

Les deux méthodes reposent sur des modèles probabilistes spécifiant des lois condition¬ 
nelles : les lois de Y/x pour la logistique, les lois de x/Y pour l’analyse discriminante. 

Les deux modèles aboutissent à une fonction de score linéaire du même type S(x) = (3 0 + (3’x. 
La différence réside dans le mode d’estimation : maximum de vraisemblance pour la logistique, 
moindres carrés pour Fisher. Précisons d’ailleurs que si / ( et f 2 sont des lois normales de même 
matrice de variance, alors l’estimation des moindres carrés donnée par la fonction de Fisher 
coïncide avec l’estimateur du maximum de vraisemblance complet et est donc plus précise que 
l’estimation fournie par la régression logistique qui n’est qu'un maximum de vraisemblance 
conditionnel qui ignore l’information sur les distributions des .v. 

En théorie la régression logistique est mieux adaptée au cas non-gaussien. Cependant la 
fonction de Fisher ayant aussi une justification géométrique peut être appliquée en dehors de 
tout contexte probabiliste. 

Les coefficients sont déterminés de façon unique et ont une interprétation en termes d’odds 
ratio pour la logistique, alors que pour la fonction de Fisher, ils sont définis à un facteur 
multiplicatif près. Il existe cependant un cas où la régression logistique ne fonctionne pas, 
celui de la séparation linéaire complète : les estimateurs n’existent pas (non-convergence), 
défaut que ne possède la fonction de Fisher que dans le cas fort rare où les deux centres de 
gravité sont confondus. 

Le fait que les erreurs-standard ne sont pas calculables en analyse discriminante alors qu’elles 
le sont en logistique est un argument en faveur de cette dernière, encore faut-il préciser qu’elles 
sont asymptotiques et que le bootstrap peut fournir des erreurs standard en discriminante. 

La régression logistique a été conçue plus comme un modèle permettant de mettre en 
évidence des facteurs influents que comme une technique décisionnelle de prévision 
individuelle. Dans certaines applications (crédit scoring en particulier), le score p 0 + |3’x 
est utilisé à des fins de prévision : si l’objectif est purement opérationnel, il convient alors 
de choisir entre les méthodes en termes de pouvoir prédictif ou taux d’erreur, et non selon 
la valeur de statistiques de test, (voir plus loin), ni selon des présupposés idéologiques. 
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18.7 VALIDATION 

La qualité d’un score ou d’une règle de classement n’est pas seulement un problème 
de test statistique, ou d’estimation d’une distance de Mahalanobîs. En effet les statis¬ 
tiques de tests, pour utiles qu’elles soient, ne sont pas directement liées aux performan¬ 
ces en termes de classement et reposent sur des hypothèses pas toujours vérifiées. Il faut 
non seulement définir des indicateurs pertinents, mais aussi pouvoir comparer différentes 
méthodes à l’aide de ces indicateurs. La comparaison de performances ne va pas toujours 
de soi, quand des modèles n’ont pas le même nombre de paramètres : le modèle le plus 
complexe sera plus performant sur les données qui ont servi a l’estimer, mais cela sera 
souvent trompeur. Il faut donc comparer les capacités prédictives sur de nouvelles don¬ 
nées (ou observations supplémentaires), ce qui conduit à partager les données dont on 
dispose en plusieurs sous-échantillons. Le chapitre suivant reprendra ce problème sous un 
point de vue plus général. 

18.7. î Procédure de classement 

Quelle que soit la méthode (discrimination linéaire ou quadratique, logistique, SVM etc.) 
si l’objectif est de prédire l’appartenance à des classes, les résultats finaux se présenteront 
sous forme d’un tableau de classement ou matrice de confusion obtenue en appliquant la 
méthode à des observations dont l’appartenance est connue et comparée à l’appartenance 
prédite (voir 18.1.3). 

Ainsi pour les données infarctus, en utilisant la fonction de Fisher avec les 7 variables, 
et en utilisant la règle bayésienne avec égalité des probabilités a priori, on obtient 87 % 
d’observations bien classées : 


De PRONO 

DECES 

SURVIE 

Total 

DECES 

4 6 

5 

51 


90.20 

9.80 

100.00 

SURVIE 

8 

42 

50 


16.00 

84.00 

100.00 

Total 

54 

47 

101 


53.47 

46.53 

100.00 


Or si l’on se contente de classer les observations qui ont permis d’estimer le modèle 
(« resubstitution ») on commet une erreur méthodologique qui peut-être grave si la taille 
des échantillons est peu élevée (jusqu’à quelques centaines) et le modèle complexe. 
En effet on aura tendance à trouver des résultats flatteurs puisque l’on utilise deux 
fois les mêmes données, une fois pour estimer les paramètres du modèle et leur don¬ 
ner donc les meilleures valeurs possibles, et encore une fois pour classer les données. 
Un modèle à 50 paramètres donnera toujours un excellent ajustement, mais se révélera 
inefficace à l’avenir. La capacité prédictive ne peut se juger que sur des données 
indépendantes. 
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On recommande donc de séparer aléatoirement les données en deux ensembles dits 
d’apprentissage et de test. L’ensemble d’apprentissage sert à estimer un modèle qui va être 
utilisé sur l'ensemble Lest. 

Ceci n’est toutefois pas suffisant et pour obtenir non pas une seule estimation du taux de 
bien classés, mais également un intervalle de confiance, il faut répéter le tirage aléatoire plu¬ 
sieurs fois. On recommande d’effectuer un tirage stratifié dans chaque groupe pour éviter des 
fluctuations parasites des effectifs des groupes. 

Lorsque le nombre d’observations disponibles est faible, comme dans le cas des infarctus, 
il n’est pas possible de séparer les données en deux sous-ensembles. On utilise alors la valida¬ 
tion croisée qui consiste à effectuer n analyses discriminantes : on ôte tour à tour chaque obs¬ 
ervation que l’on prédit à l’aide d’un modèle estimé sur les n — 1 observations restantes. Cette 
méthode s’apparente donc au jack-knife et au calcul du « press » en régression. On obtient des 
estimations de biais faible, voire nul, mais avec une variance pas toujours négligeable. 

Voici le résultat pour les données infarctus : l’estimation du taux de bons classements 
diminue à 84 % 


De PRONO 

DECES 

SURVIE 

Total 

DECES 

4 4 

7 

51 


86.27 

13.73 

100.00 

SURVIE 

9 

41 

50 


18.00 

82.00 

100.00 

Total 

53 

43 

101 


52.48 

47.52 

100.00 


Il faut bien comprendre que ces façons de faire ne servent qu’à estimer la capacité pré¬ 
dictive du modèle en l’absence de nouvelles données, mais que les paramètres doivent 
toujours être estimés à l’aide de la totalité des observations. 


S 8.7.2 VaSidité d'un score, courbe ROC, AUC 

Ce qui suit ne concerne que le cas de deux groupes. On appellera ici score une mesure 
permettant de noter le risque d’appartenir au groupe 1. Un score n’est pas forcément obtenu 
par une méthode linéaire, toute méthode permettant de calculer une probabilité d’apparte¬ 
nance convient : une probabilité est un score compris entre 0 et 1. 

On commencera par étudier la séparation entre les distributions du score selon les deux 
groupes comme dans la ligure 18.17. Cependant l’outil le plus pertinent est la courbe ROC. 

Abréviation de « Receiver Operating Curve », cette courbe résume les performances 
de toutes les règles de classement que l’on peut obtenir en faisant varier le seuil de 
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décision. Supposons que le groupe à détecter prioritairement soit celui des scores élevés. 
La règle de décision se compare à un test d’hypothèse entre H 1 (population 1) et HO 
(population 2). Le vocabulaire (positifs, négatifs) est issu de problématiques de détection 
(signal, dépistage médical) et peut se ramener aux concepts d’erreurs de première et 
seconde espèces du chapitre 14. On appelle faux positif une observation classée en G2 
alors qu’elle appartient à G1 etc. Si l’on désigne par s le seuil au delà duquel on classe 
en G 1, on définit la : 

sensibilité comme le % de vrais positifs : 1 - P = P(S > ,v/Gi) 

spécificité comme le % de vrais négatifs : 1 - a = P(S < s/G2) : 



Si .v = — co toute observation est classée en G1 donc 1 — (3—1 mais a = 1. En augmentant 
s on diminue la sensibilité mais on augmente la spécificité. La courbe ROC (figure 18.20) 
donne alors l'évolution de la proportion de vrais positifs l - (3 en fonction de la proportion de 
faux positifs a. 


Courbe ROC 



Figure 18.20 
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La courbe ROC est invariante pour toute transformation monotone croissante du score, en 
raison des propriétés des probabilités : on peut donc sans sans changer la courbe ajouter (ou 
multiplier par) une constante positive, prendre la probabilité à la place du score etc. La cour¬ 
be ROC ne dépend que du classement des valeurs. 

Plus les deux distributions sont séparées, plus la courbe ROC se rapproche du carré. Si les 
deux distributions sont identiques, la courbe se confond avec la diagonale. La surface située 
sous la courbe ROC notée AUC (« area under curve ») est une mesure de la performance d’un 
score : 


AUC - 


(1 - P(s))cla(s) 


Elle varie entre 0 et 1, en pratique 0.5 et 1, car si AUC < 0.5, cela signifie que les sco¬ 
res ont été inversés. Si AUC > 0.5 on utilise également un coefficient dit de Gini qui est 
le double de la surface comprise entre la courbe ROC et la diagonale et qui vaut donc 
2AUC-1. 

Soit X y la variable dont la loi est celle du score conditionnellement à Gl, idem pour X 2 . 
Un calcul de convolution (loi de Xy — X 2 ) montre que la surface sous la courbe ROC théo¬ 
rique est égale à P(X, > X 2 ) si l’on tire au hasard et indépendemment une observation de Gl 
et une observation de G2. 

Cette propriété permet de trouver simplement une estimation de Y AUC. En effet la proba¬ 
bilité que Xy > Xi s'estime par le pourcentage de paires d’observations (une de Gl, l’autre 
de G2) concordantes, c’est à dire telles que le score de l’observation de Gl est plus grand que 
le score de l’observation provenant de G2. Il y a en tout ;q;/ 2 paires. La proportion de paires 
concordantes n’est autre que la statistique U de Mann-Whitney étudiée au paragraphe 14.4.4.2, 
elle même fonction de la statistique de Wilcoxon. 


Courbe ROC 



Figure 18.21 
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La figure 18.21 permet de comparer les scores issus de la fonction de Fisher et de la 
régression logistique pour l’exemple infarctus en ne gardant comme prédicteurs que les 
variables Incar et PapuI : la différence entre les courbes ROC est pratiquement inexistante. 
Les AUC valent respectivement 0.945 et 0.943. 

L 'AUC ne donne toutefois pas un ordre total pour classer des modèles car les courbes 
ROC peuvent se croiser. De plus quand les modèles ont des complexités différentes, la com¬ 
paraison doit être effectuée sur les observations d’un échantillon test. 




Méthodes 
algorithmiques, 
choix de modèles 
et principes 


d’apprentissage 


L’augmentation de la puissance de calcul a permis le développement de nouvelles 
méthodes de prédiction utilisant une approche algorithmique et issues plus souvent de 
travaux d’informaticiens que de statisticiens. Arbres de décision, réseaux de neurones, 
plus proches voisins sont ainsi couramment utilisés en « data mining » et sont en concur¬ 
rence avec les modèles plus « statistiques » étudiés aux chapitres précédents. D’un autre 
côté des techniques statistiques élaborées de régression non paramétriques, ou de modé¬ 
lisation non-linéaire via des transformations fonctionnelles (cf. les SVM) sont devenues 
disponibles. 

On peut également combiner différents modèles pour en améliorer les performances : on 
parle alors de méthodes d’ensemble , de méta-modèles ou méta-heuristiques (« bagging », 
« boosting » en sont des exemples). Ces approches empiriques peuvent donner lieu à une 
théorisation expliquant leurs performances ; le lecteur intéressé se reportera à l’excellent 
livre de T. Hastie, R. Tibshirani, J. Friedman (2001). 

La gamme de modèles offerts au praticien est donc de plus en plus vaste. 

La question du choix d’un bon modèle, sinon du « vrai modèle », se pose alors en d’autres 
termes que celui du meilleur ajustement aux données : 

® choix d’un modèle parcimonieux utilisant peu de paramètres, 

® choix d’un modèle ayant de bonnes capacités prédictives sur de nouvelles observations 

Ce chapitre présentera quelques uns de ces aspects ainsi que l’apport de la théorie de 
l’apprentissage. 


19.1 ARBRES DE RÉGRESSION ET DE DISCRIMINATION 

Développées autour de 1960 et très utilisées en marketing, ces méthodes délaissées par les 
statisticiens ont connu un regain d’intérêt avec les travaux de Breiman & al. (1984) qui en 
ont renouvelé la problématique : elles sont devenues un des outils les plus populaires du 
data mining ou fouille de données en raison de la lisibilité des résultats. On peut les utili¬ 
ser pour prédire une variable Y quantitative (arbres de régression) ou qualitative (arbres de 
décision, de classification, de segmentation) à l’aide de prédicteurs quantitatifs ou qualita¬ 
tifs. Le terme de partitionnement récursif est parfois utilisé. 
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f 9 J. I DéveSoppement d’un arbre binaire 

Le procédé consiste à la première étape à diviser l’échantillon d’apprentissage en deux sous 
ensembles à l’aide d’un des prédicteurs .v', x 2 , ..., x'\. Ensuite on recommence séparément dans 
chaque sous-ensemble etc. Pour chaque variable explicative, il faut donc trouver la meilleure par¬ 
tition de ses valeurs ou modalités en deux sous-ensembles selon un critère d’explication de y. 

Il s'agit donc d’une classification descendante à but prédictif opérant par sélection de 
variables : chaque classe doit être la plus homogène possible vis à vis de y. 

Partant de l’ensemble on cherchera à le diviser en deux sous-ensembles d’effectifs /q et 
rii tels qu’en moyenne on améliore le plus possible l’homogénéité des deux classes. 

Le nombre de divisions en deux sous-ensembles que l’on peut réaliser à l’aide d’un pré¬ 
dicteur (et que l’on doit donc examiner pour choisir la meilleure) dépend de la nature de ce 
prédicteur : 

si .v est qualitatif nominal à ni modalités, il y a — 1 dichotomies possibles 

- si a - est qualitatif ordinal a ni modalités et que les coupures doivent respecter l’ordre, 
il n’y a plus que m — 1 dichotomies 

- si a est numérique à k valeurs distinctes, il y a le— 1 dichotomies ou coupures possi¬ 
bles entre deux valeurs. 

En présence d’un prédicteur qualitatif, on pourrait utiliser des arbres non binaires en 
découpant en ni sous ensembles : cette idée n’est en général pas bonne car elle conduit à des 
subdivisions avec trop peu d’observations et souvent non pertinentes. L’intérêt des arbres 
binaires est de pouvoir regrouper les modalités qui ne se distinguent pas vis à vis de y. 

I9.I.I.I Arbres de régression 

Si v est numérique, on utilisera de façon naturelle la variance de la classe comme mesure 
d'homogénéité. En divisant en deux sous-groupes on cherche alors à minimiser la variance 
intra-groupe ou ce qui est équivalent a maximiser la variance inter-groupe. Pour deux groupes 

la variance inter-groupe V inlt . r = - (n ,( v, — v) 2 + n-,( y-, — v) 2 ) est liée de manière simple à la 

n - - - - n 

différence entre les moyennes (calcul laissé au soin du lecteur) : r — — -rf- (v, — v-.) 2 

rr ' 

La coupure optimale pour une variable qualitative nominale à m modalités doit respecter 
l’ordre induit par la moyenne de y. On réordonne donc les catégories de a selon ÿ, et il n’y a 
plus que m — t dichotomies à examiner au lieu de 2"'~ l — 1. 

19. /. 1.2 Discrimination en k classes 

Si y est qualitative à m modalités on définit tout d’abord une mesure d’impureté d’un 
ensemble vis à vis de y. Cette mesure doit être nulle si tous les individus appartiennent à la 
même modalité de y, maximale si les ni catégories sont en proportions égales. Les deux 

k 

mesures les plus usuelles sont l’ entropie T, p, In (/?,) et l’indice de diversité de Gini 

i~l 

k 

^ pi( 1 — Pj). On cherche la division en deux sous-ensembles qui conduit à la diminution 

i= 1 

maximale de l’impureté. 
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19.1.1.3 Discrimination en deux classes 

Si y n'a que deux modalités en proportions p et 1-/? l'indice de Gini vaut 2/7(1 -p) et a un 
comportement très proche de l'entropie comme le montre la figure 19.1 où l’entropie a été 
divisée par 21n(0.5) pour avoir 0.5 pour maximum. 



Figure 19.1 

Sur le plan pratique l’indice de Gini présente les avantages suivants : 

- Un calcul simple montre que la diminution d’impureté au sens de Gini vaut 

», n-> , 

2— ï~(p i — p->)~ °ù P\ et p-, sont les proportions de la modalité l dans les deux 
;r 

sous-ensembles obtenus après division, Au facteur 2 près, l’indice de Gini se confond 
avec la variance de la variable indicatrice de la modalité 1. 

- L’indice de Gini présente alors la même propriété que la variance intraclasse qui per¬ 
met de réduire de 2" ,_l — 1 à ni — I le nombre de dichotomies à étudier si l’on ordonne 
les catégories de .y selon les proportions d’une des modalités de x 

19.1.2 Utilisation d’un arbre 

Pour prédire y, il suffit de parcourir l’arbre depuis le sommet pour déterminer à quel nœud 
terminal ou segment, appartient une observation x. 

Si v est numérique, la prévision sera la moyenne des observations du segment de x. Si les pré¬ 
dicteurs sont numériques, il s’agit d’un modèle de régression constante par morceaux, selon des 
pavés de obtenus par dichotomies successives parallèlement aux axes de coordonnées. La qua¬ 
lité de la régression peut être évaluée à l’aide d’indicateurs classiques (erreur quadratique, R 2 etc.) 

Si y est qualitative, x sera classé dans le groupe le plus fréquent (règle majoritaire). On 
établit alors comme en discrimination un tableau de classement. On peut aussi attribuer à x 
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une probabilité conditionnelle d’appartenance, à partir des proportions des groupes dans 
le segment, d’où la possibilité de tracer éventuellement une courbe ROC, mais le nombre 
de valeurs distinctes de cette probabilité conditionnelle est souvent faible puisque égal au 
nombre de segments terminaux. 

Voici à titre d’exemple (figure 19.2) un arbre obtenu sur les données du paragraphe 18.4.3 
avec un sous-échantillon de 374 individus : 


Moye = {ENC1} 



Figure 19.2 


Cet arbre se lit sous forme de règles logiques : un client qui domicilie son salaire ET qui a 
une ancienneté de moins de 4 ans ET un encours moyen de plus de 2kF est classé « bon » alors 
que celui qui ne domicilie pas son salaire est classé « mauvais ». Le taux d’erreur de l’arbre 
s’obtient en faisant la somme des effectifs des minoritaires de chacun des 4 segments terminaux. 


Matrice de 

confusion 



PREDIT 


OBSERVE 

BON 

MAUV 

BON 

163 

25 

MAUV 

67 

119 


Le taux d’erreur est de 24,6 % du même ordre que celui de la méthode de score mais sur 
l’échantillon d’apprentissage. 

J 9.1.3 Sélection d’un sous-arbre 

Le nombre de nœuds terminaux croit exponentiellement avec le niveau de l’arbre et il est 
nécessaire de fixer des limites, sinon l’arbre est trop grand et inutilisable car s’ajustant trop 
bien aux données d’apprentissage : en laissant croître indéfiniment l’arbre il peut se faire 
que l’on ne s’arrêtera qu’avec des nœuds terminaux réduits à une seule observation. Le taux 
d’erreur de classement sera alors nul, puisque chaque individu sera affecté à sa classe ! 

Jusqu’aux travaux de Breiman & a) (1984), l’usage était de faire des tests d’égalité de 
moyennes ou de proportions en se fixant des seuils pour déterminer si un nœud devait être 
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découpé ou non. Ces Lests en cascade conditionnés par les décisions précédentes ont été ajuste 
titre critiqués. La méthodologie « CART » consiste à ne pas fixer de seuil, à laisser croître 
l’arbre avec pour seul critère d’arrêt un effectif minimal par nœud et ensuite de procéder à un 
élagage astucieux en utilisant un échantillon test ou une procédure de validation croisée. 

Voici succinctement* 1 ) les principes de la méthode dans le cas de la discrimination (pré¬ 
vision d'une variable qualitative). 

Soit T 0 l'arbre maximal obtenu comme nous venons de l’indiquer. L’objectif est de trouver un 
sous-arbre T de T 0 obtenu en coupant certaines branches et qui réalise un bon compromis entre 
sa performance mesurée par le taux ou coût d’erreur en apprentissage C(T) et sa complexité 
mesurée par le nombre de segments terminaux ITI. On utilise une mesure pénalisée de la perfor¬ 
mance égale à C(T) 4- a ITI où a est un paramètre de réglage que nous préciserons plus tard. 

En termes d’erreur de classement le meilleur arbre est forcément le plus grand. Considérons 
pour simplifier que IT 0 I = 2' 1 avec q niveaux. Il existe IT 0 l/2 sous-arbres avec IT 0 I — 1 segments 
terminaux obtenus en supprimant une des dernières divisions au niveau q — 1. On choisit 
alors le sous-arbre le meilleur en terme de coûts d’erreur C(T). On poursuit alors Y élagage 
pour obtenir un sous-arbre à IT 0 I — 2 segments terminaux etc. jusqu’à arriver à la racine. On 
dispose alors d’une suite de sous-arbres emboîtés (les branches coupées ne repoussent pas..) de 
qualité de moins en moins bonne. 

La figure 19.3 illustre cette démarche en partant d’un arbre à 8 terminaux (figure 19.3a), 
il y a 4 sous arbres à 7 terminaux. Le meilleur est celui de la figure 19.3b. Il y a ensuite 
3 sous-arbres à 6 terminaux dont le meilleur est en 19.3.C. Il reste ensuite deux choix pour 
un sous-arbre à 5 terminaux 19.3.d, puis une fois ce choix fait, deux possibilités pour un 
sous-arbre à 4 terminaux et ensuite il n’y a plus de choix pour passer à 3 ( 19.3.f ) puis 2, puis 
1 segment. 

Une solution simple pour choisir un de ces sous-arbres consiste à utiliser un échantillon- 
test et déterminer lequel de ces sous-arbres a la meilleure capacité prédictive, mais on risque 
de trouver un arbre complexe. 

La solution de Breiman & al. est plus élaborée : c’est ici qu’intervient le paramètre a (ce qui 
précède revient à prendre a = 0). Pour a fixé, il existe un sous-arbre minimisant C(T) 4- alTI 
puisque quand ITI diminue C(T) augmente. Pour trouver la valeur adéquate de a on procède 
par validation croisée : on divise les données disponibles en 10 parties (par exemple), que l’on 
ôte à tour de rôle et que l’on prédit à l’aide des 9 autres. On fait varier a et on choisit la valeur 
qui minimise la moyenne des coûts d’erreur. 

La méthode s’étend aux arbres de régression en prenant pour C(T) la moyenne des carrés 
des erreurs. 

19.1.4 Avantages et inconvénients 

Le principal avantage est l’extrême lisibilité qui fait que tout utilisateur peut comprendre 
et utiliser un arbre. Parmi les autres avantages figure le fait de pouvoir utiliser des prédic¬ 
teurs de toute nature, de ne faire aucune hypothèse sur leurs distributions, de hiérarchiser et 
sélectionner les prédicteurs. 


I ïfflVoir Nakache, Contais (2003) pour un traitement détaillé. 
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Mcye - {ENG T} 



Figure I9.3d 
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Figure 19.3e 


Ana « |ANGl, ANC2) 



Figure I9.3f 


Malgré les progrès méthodologiques les inconvénients sont non négligeables : les arbres sont 
instables ; de légères variations dans les données peuvent conduire à d’autres choix de nœuds 
qui deviennent irréversibles puisque chaque coupure détermine les autres. Les arbres ne peuvent 
être utilisés qu'avec de grands échantillons de plusieurs centaines ou milliers d’observations. 
C’est pour cela que nous n’avons pas présenté d’arbres pour les données infarctus ou voitures. 


19.2 RÉSEAUX DE NEURONES 

Les réseaux de neurones sont des outils puissants pour prédire des phénomènes non 
linéaires. Développés dans les années 80, ils ont connu un vif succès auprès d’utilisaLeurs 
non statisticiens cherchant avant tout des performances, grâce en partie à leur vocabulaire 
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évoquant des analogies biologiques. Ils apparaissaient magiques et mystérieux (Hastie & al. 
p. 350). La technique peut pourtant se décrire simplement. Nous nous limiterons au cas du 
réseau le plus connu : le perceptron multicouche, issu des premiers travaux de Rosenblatt 
(195S). Pour des compléments sur les relations entre « réseaux de neurones et statistique », 
on se reportera au livre ayant ce titre édité par S. Thiria & al. (1997). 

19.2.1 Le perceptron multicouche 

Il s’agit d’un modèle utilisable aussi bien en régression qu’en discrimination. Les prédic¬ 
teurs .v 1 , .v 2 , . . ., x p sont numériques. 

Décrivons un réseau monocouche à k neurones « cachés » : 

r 

® On commence par définir plusieurs combinaisons linéaires w {)l i -h ^ n^.v j des prédicteurs. 

; = i 

Les coefficients sont parfois appelés poids synoptiques. Pour le statisticien ce sont des 
paramètres à estimer 

« Ces combinaisons linéaires sont ensuite transformées par une fonction non-linéaire, dite 
fonction d’activation qui est en général une fonction logistique appelée parfois sigmoïde : 


"(U + S H'jlXj 

1+e 

Le neurone est le calculateur qui effectue ces opérations et est représenté par un nœud ou 
une petite boîte sur le schéma. 

® Les z k sont ensuite combinés de façon similaires pour aboutir à des valeurs de sortie qui 
sont prises pour prévision y de y. La sortie est unique pour une régression simple, mul¬ 
tiple sinon, comme pour une discrimination. Le ou les y sont alors des fonctions non 
linéaires complexes des .v 1 , .v 2 , . . x 1 ’. 

On retrouve des modèles classiques dans certaines configurations particulières : la régres¬ 
sion logistique pour un réseau sans couche cachée avec y binaire. 

La figure 19.4 (logiciel Weka) illustre un tel réseau pour une discrimination entre les trois 
espèces d’iris : les 4 variables alimentent 2 neurones d’une couche cachée dont les sorties 
sont combinées pour obtenir 3 fonctions, une pour chaque espèce. Une observation est alors 
classée dans l’espèce qui correspond à la valeur maximale des 3 sorties. 

Ce réseau comporte 2X5 + 3X3 = 19 paramètres à estimer. En effet avec p variables, c 
neurones sur la couche cachée, et s sorties, il y a/; + 1 coefficients pour chacune des c fonctions 
z k , puis c + 1 coefficients pour chaque sortie soit en tout c(p + 1) + s(c + 1) paramètres. 

Dans un réseau multicouche les sorties d’une couche deviennent les entrées d’une autre 
couche etc. On introduit parfois une entrée supplémentaire correspondant a une variable 
constante égale à 1 pour gérer les termes constants dans les formules. 

Le perceptron multicouche (une couche suffit) possède une propriété d’approximation uni¬ 
verselle au sens où toute fonction/de p variables x', a~, . . x p peut être approximée d’aussi 
près que l’on veut en augmentant le nombre de neurones de la couche cachée (Homik & al. 
1989), à condition d’utiliser une fonction d’activation non linéaire comme la logistique. 
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Les réseaux de neurones avec perte quadratique et fonction d’activation linéaire aboutis¬ 
sent aux mêmes modèles que la régression linéaire ou la discrimination linéaire de Fisher et 
ne présentent donc pas d’intérêt pratique. 

19.2.2 L’estimation 

Les paramètres sont estimés pour minimiser une fonction de coût (somme des carrés des 
écarts si la réponse est numérique, coût d’erreur de classement en discrimination). Compte 
tenu du caractère non-linéaire, on recourt à des algorithmes d’optimisation numérique que 
nous ne détaillerons pas ici. Certains algorithmes, de type gradient stochastique, consistent 
au cours de la phase d’apprentissage à lire plusieurs fois séquentiellement les données en 
modifiant au fur et à mesure les coefficients pour améliorer la prédiction des valeurs suivan¬ 
tes. Cette phase d’apprentissage peut être extrêmement longue. 

Outre le fait que ces algorithmes peuvent aboutir à des optimums locaux, le problème 
essentiel est le surapprentissage dû au grand nombre de paramètres dès que le réseau est un 
peu complexe : pour profiter de la propriété d’approximateur universel on prend souvent un 
nombre élevé de neurones sur la couche cachée. Le choix de l'architecture du réseau : nom¬ 
bre de couches et de neurones par couche est également délicat et se résout par des procédés 
empiriques comme l’emploi d’ensembles de test ou la validation croisée. Le surapprentissa¬ 
ge conduit à des coefficients instables et on emploie alors des méthodes de régularisation du 
type régression ridge, déjà étudiée au chapitre 17 paragraphe 17.5.2 appelée ici « weight 

II 

decay ». On minimisera sur l’échantillon d’apprentissage ^ (y,- ~ y,) 2 + \2<«v> 2 où \ est un 

/= i j 

paramètre de réglage positif. Plus \ est grand plus les coefficients sont réduits, le choix de \ 
se faisant typiquement par validation croisée. 

Les variables d’entrée x l , .v 2 , . . ., x p doivent au préalable être standardisées afin que la 
régularisation les traite de la même manière. Les réseaux de neurones sont conçus pour 
des Xj numériques. Lorsque les prédicteurs sont qualitatifs, on peut utiliser les variables 
indicatrices des modalités, mais il est préférable de procéder comme dans la méthode 
Disquai avec les coordonnées sur des axes factoriels. 
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Bien que la prédiction puisse s'écrire comme une formule mathématique puisque l’on 
enchaîne des combinaisons linéaires et des fonctions logistiques, cette formule est d'une 
complexité telle qu'en général elle n’est pas explicitée et le réseau est ensuite utilisé en 
« boîte noire ». Si l'avantage des réseaux est leur flexibilité, un inconvénient majeur dans 
certaines applications est l'absence de lisibilité. 

Faut-il utiliser les réseaux de neurones ? Ils ont prouvé leur efficacité et font maintenanrt 
partie de la panoplie des outils disponibles, mais la difficulté à bien les paramétrer est un 
handicap. D'autres méthodes comme les SVM permettent d’obtenir plus facilement des 
résultats de qualité comparable avec souvent une formulation plus simple. 


19.3 COMBINAISON DE MODÈLES 

Parfois appelées méthodes d’ensemble, méta-heuristiques, les méthodes présentées dans 
ce paragraphe cherchent à améliorer les prédictions obtenues à l'aide de différents modèles 
par combinaison ou pondération. Il peut s’agir de modèles issus de la même famille (modè¬ 
les paramétriques ou non) comme des arbres de décision obtenus à l’aide d’échantillons dif¬ 
férents, ou de modèles distincts (régression logistique et réseaux de neurones). 

La pondération probabiliste de modèles sera étudiée au paragraphe 19.4 lors de l’étude du 
critère BIC. 

19.3.1 Retour sur Se bootstrap 

L’étude par bootstrap d’une méthode consiste à tirer avec remise B échantillons de taille n 
dans l'ensemble des n données disponibles. On peut ainsi étudier les distributions d'échan¬ 
tillonnage approchées des paramètres et performances de ces méthodes (voir le paragraphe 
18.4.3). Dans le cadre d’une modélisation prédictive, on obtient B modèles différents : appli¬ 
qués à une observation x, ils fournissent B prédictions différentes de y. 

Si v est une variable numérique le bagging ou bootstrap averaging consiste à prendre la 
moyenne des B prédictions, qui a donc une variance inférieure à celle de la prédiction initia¬ 
le et réalise un lissage. 

Un cas intéressant est celui où y est qualitative et où on utilise une méthode d’arbres de 
décision. On se retrouve alors avec B arbres (une forêt !). On procède alors à un vote majo¬ 
ritaire pour classer une observation x : on compte le nombre d’arbres parmi B qui classent x 
dans chaque groupe et on choisit le groupe majoritaire. Le bagging remédie à l'instabilité 
bien connue des arbres, mais la règle Finale n’est pas un arbre et on perd la lisibilité 
de la méthode. De plus on montre que dans le cas des arbres, si le bagging peut amé¬ 
liorer une bonne règle, il n’améliore pas une mauvaise règle mais au contraire l’aggrave 
(Hastie & al. p. 249) en raison du caractère discontinu de la fonction de perte. Le haosting 
n’a pas cet inconvénient. 

S 9.3.2 Le boosting 

Le boosting inventé en 1997 par Freund et Schapire, améliore une règle de discrimination, 
surtout si elle est médiocre, en l’appliquant de manière répétée sur les observations mal 
classées en les surpondérant à chaque fois. Le principe consiste donc a se focaliser sur les 
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observations mal classées, souvent proches de la frontière, plutôt que sur celles faciles à 
classer. Après chaque itération, on repondère les individus. 

La règle finale est un vote pondéré à partir des M règles obtenues : à chaque règle est affecté 
un coefficient a nr La procédure AdaBoost se déroule schématiquement de la manière suivante : 

- A la première itération les poids des observations sont tous égaux 

- A l’itération ni on calcule le taux d’erreur pondéré e m (moyenne des poids des obser¬ 
vations mal classées). 

- On en déduit le coefficient a w = ln(-- 

\ e m 

- On met à jour les poids des individus de la façon suivante : si / est bien classé, son 
poids ne change pas, sinon il est multiplié par exp(a m ). Quand on normalise pour 
avoir une somme des poids égale à l, les poids des observations mal classées aug¬ 
mentent et ceux des biens classés diminuent donc. 

Le boosting donne des améliorations spectaculaires pour les arbres. De nombreux travaux ont 
été mené pour l’expliquer (cf. Hastie et al. chapitre 10). Le défaut est cependant le même que 
pour le bagging puisque l’on perd l’avantage de la lisibilité de l’arbre. Pour une application don¬ 
née il faut alors comparer son efficacité à celles d’autres méthodes de type « boîte noire » comme 
les réseaux de neurones, la discrimination par estimation de densité, les plus proches voisins etc. 



19.4 CHOIX DE MODÈLES 

Nous entendrons ici par modèle aussi bien des modèles paramétriques classiques 
(régression linéaire, logistique) que des méthodes algorithmiques. Devant un ensemble de 
données, le praticien se trouve alors face au choix d’un modèle parmi un grand nombre de 
possibilités. Cette question a déjà été évoquée partiellement au chapitre 17 paragraphe 

17.4 dans le contexte du choix de variables en régression linéaire multiple. 

Depuis les années 1970 où les critères d’Akaïké et de Schwartz ont été proposés, une 
abondante littérature a été consacrée au choix de modèles et les recherches en ce domaine 
sont toujours actives. Avant de présenter les principaux critères et méthodes, il faut s’inter¬ 
roger sur l’objectif poursuivi : cherche t-on à découvrir le « vrai » modèle parmi une famille, 
ou le modèle le plus performant ? La distinction ne va pas de soi et renvoie à des questions 
épistémologiques. En tout cas le choix de modèle ne sera pas le même. 

19.4. S Critères de vraisemblance pénalisée 

On considère ici des modèles paramétrés pouvant se décrire par une densité g(x ; 0). Pour 
un problème prédictif, il pourra s’agir de la densité conditionnelle de y sachant x ou de la 
densité conjointe de y et x. Les paramètres seront estimés par la méthode du maximum de 
vraisemblance. 

La vraisemblance calculée en 0, L(0), est une manière de mesurer l’adéquation d’un 
modèle aux données puisqu'elle représente la probabilité d’avoir observé l’échantillon sous 

le modèle (cf. chapitre 13). On utilisera en fait la log-vraisemblance ln L(0). Si l'on dispose 
d’une famille de modèles g,(x ; B,) par exemple des régressions linéaires avec 1,2.. p 
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prédicteurs, on peut calculer pour chaque modèle In L(Ô-) mais ce critère ne permet pas de 
choix car il est croissant avec / : le « meilleur » modèle est celui qui a le plus de paramètres. 

Les critères AIC et BIC vont pénaliser la log-vraisemblance pour tenir compte du nombre 
de paramètres. D’apparence semblable, ils visent en réalité des objectifs différents. 

I 9.4.1.1 Le critère AIC d’Akaïké 


Il vaut 

[7/F^2in7xâM^n 

où test le nombre de paramètres du modèle. Le meilleur modèle est donc celui qui mini¬ 
mise AIC. 


Ce critère tire son origine de la divergence de Kullback-Leibler issue de la théorie de l’in¬ 
formation. Soient / et g deux densités de probabilités, et supposons que / est la vraie loi 
inconnue, g une approximation, alors la divergence, ou perte d’information pour utiliser g à 

la place de / est définie par : /(/ ; g) ~ |”/(/)ln di. La divergence peut se mettre sous 

forme de la différence entre deux espérances prises par rapport à la vraie loi: 


/(/ ; g) = ln - 1 nigitmOdt = £}(ln(/(/)) - £>(ln(^(0) 


L’élément le plus proche de/dans une famille paramétrée g(t ; 0) correspond au 0 qui 
maximise Ej(\n(g(t ; 0)). On ne peut résoudre ce problème si /est inconnu. On utilise alors 
l’estimateur du maximum de vraisemblance 0, obtenu dans le cadre de la famille g que l’on 
porte dans la formule d’où Ej(\n(g{( ; 0)). Cette dernière expression est une variable aléatoi¬ 
re car 0 dépend des données ; on en prend alors l’espérance par rapport aux données (qui 
suivent la vraie loi /) que l’on note E^Ej-iln/g/i ; 0)). Cette quantité n’est pas calculable 
puisque/est inconnu, mais sous certaines hypothèses et à l’aide d’un développement de 
Taylor, Akaïké a montré qu’asymptotiquement^, donc pour de grands échantillons, 
E,',£ r (ln(g(/ ; 0)) - lnL(0)) - le. L 'AIC s’en déduit par multiplication par —2 

19.4.1.2 Le critère BIC de Schwartz 


Il vaut 


B/C = -21nL(0) + ln(n)k 


la pénalisation est donc plus forte qu’avec Y AIC car dépendant du nombre d’observations. 
Pour de grands échantillons, le BIC aura donc tendance à favoriser des modèles à moins de 
paramètres que le critère d’Akaïké. 

Le critère BIC provient d’un contexte totalement différent, celui du choix bayésien 
de modèles. Considérons une famille finie de m modèles notés M, dépendant d’un paramètre 
(vectoriel) 0 ( -. On se donne des probabilités a priori P(Mj) sur chaque modèle, ainsi qu’une 


2 es La démonstration, longue et technique, est omise. 
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distribution a priori de 0, pour chaque modèle P(0,/M,) ; alors la probabilité a posteriori du 
modèle M, sachant les données x est proportionnelle à P(M,) P(x/M-, ) 

Si les probabilités a priori P(M,-) sont uniformes ce qui correspond à ne favoriser 
aucun modèle, la probabilité a posteriori du modèle M, est proportionnelle à 

P(x/Mj) — J P(x/M,-; 6 i )P(0 t /Af j )d8 / dite vraisemblance intégrée. Sous certaines hypothèses 

de régularité, et en effectuant un développement limité au voisinage de l’estimateur du maximum 

de vraisemblance, on montre (démonstration omise) que ln(P(x/M,) ~ In (P(xI6„ M t ) — -ln(rj). 

ln(P(x/0,-, M,) est la log-vraisemblance du modèle M,. Le choix du modèle le plus probable M { 
a posteriori revient à choisir celui qui a le BIC minimal. 

Ayant calculé tous les BIC pour chaque modèle, la probabilité a posteriori vaut : 

e -0.5 me , 

P(Mjlx) = - -- 

£— 0.5 BICj 

7=1 

On peut alors pondérer les modèles avec ces probabilités, pour en déduire une prédiction 
moyenne pondérée (model ctveraging). 


19.4.1.3 Eléments de comparaison et de réflexion 


En régression linéaire multiple, sous les hypothèses habituelles, la log-vraisemblance vaut 


ln(L) = -- 


/ i (v, - S’,) 2 ^ 


ln 


î= i 


+ In(2Tr) + l 


A nombre fixé de variables, le modèle qui a le meilleur R 2 est aussi celui qui maximise 
YAIC ou le BIC. YAIC ou le BIC servent alors à comparer des modèles ayant des nombres 
de prédicteurs différents. 

Sur les données « voitures », YAIC retient un modèle à 2 variables, tandis que le BIC ne 
retient qu’un modèle à une variable. 


Si le « vrai » modèle fait partie des m modèles de la famille étudiée, sera t-il choisi ? Si 
n tend vers l’infini on a pu montrer que la probabilité que le BIC choisisse le vrai modèle 
tend vers 1, ce qui est faux pour YAIC. Par contre YAIC va choisir le modèle qui maximi¬ 
sera la vraisemblance de futures données et réalisera le meilleur compromis biais-variance 
(voir plus loin). L 'AIC est donc un critère prédictif tandis que le BIC est un critère explica¬ 
tif. Il faudrait donc choisir le critère selon l’objectif et non les utiliser de façon simultanée. 


Tableau 19.1 


1-iombre dans 

le modèle 

H-carré 

R carré 
ajusté 

AIC 

BIC 

Variables du modèle 

1 

0.6379 

0.6153 

301.1433 

304.2040 

PUIS 

2 

0.6366 

0.6448 

300.5430 

305.1183 

PUIS POIDS 

3 

0.6936 

0.6342 

301.8305 

307.7996 

CYL PUIS POIDS 

4 

0.7013 

0.6101 

303.6495 

310.9014 

CYL PUIS LAR POIDS 

5 

0.7037 

0.5874 

305.2253 

314.0329 

CYL PUIS LAR POIDS VITESSE 

6 

0.7091 

0.5504 

307.2033 

317.3025 

CYL PUIS LOU LAR POIDS VITESSE 
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Pour n fini des simulations ont montré des résultats contradictoires et le BIC ne choisit pas 
toujours le modèle dont les données sont issues car il a tendance à choisi des modèles trop 
simples en raison de sa plus forte pénalisation. 

Il nous semble cependant, que malgré leur intérêt intellectuel, ces critères ne sont pas 
adaptés à de nombreux problèmes concrets. Ils ne s’appliquent bien que dans des contex¬ 
tes correspondant à une maximisation de vraisemblance et pour certains types de modèles 
(erreurs gaussiennes par exemple) et de méthodes. On ne peut pas aisément les utiliser 
pour des réseaux de neurones, des modèles non-linéaires ou à variables qualitatives. Le 
nombre de paramètres ne traduit pas nécessairement la complexité d’un modèle, 
nous y reviendrons plus loin. Une régression linéaire multiple à p variables correspond à 
k — p + 1, mais si l’on procède à une régularisation de type ridge la complexité est infé¬ 
rieure. Il faudrait alors remplacer k par un « nombre équivalent de paramètres » ce qui 
n’est pas simple. 

Enfin, la notion de « vrai » modèle qui est implicite ou explicite dans ces critères a t-elle 
un sens ? Un modèle n'est qu’une simplification de la réalité destinée à la faire comprendre 
et à obtenir des prévisions convenables. George Box, un des plus grands statisticiens 
contemporains aimait à rappeler que « tous les modèles sont faux : certains sont utiles ». 
Lorsque le nombre d’observations est grand, les modèles usuels sont en général trop simples 
pour la complexité du monde réel et donc rejetés par les tests d’adéquation. Que penser alors 
de l’intérêt des propriétés asymptotiques ? 


19.4.2 Approche empirique 
/9.4.2. 1 Le dilemme biais-variance 

On peut généraliser aisément les résultats du paragraphe 17.2.3 à un modèle de prédiction 
du type y ~f(x) + e. On estime/par j à l’aide d'un échantillon et on cherche à prédire une 
valeur future en x 0 . L’erreur de prédiction est y 0 — _y n — /(.v 0 ) + e — /(.v 0 ). Elle est aléatoire 
à deux titres d’une part parce que le phénomène n’est pas déterministe à cause de e et d’autre 
part parce que la prédiction ÿ 0 = /(x 0 ) est aléatoire : / est une estimation plus ou moins 
précise. L’erreur quadratique moyenne de prédiction est : 

E(Vo ~ Vo) 2 = cr 2 + £(/'(.v 0 ) - /(a-,,)) 2 = a 2 + (£(/(. a 0 )) -/( x 0 ?) + V(f( a { ,)) 


le premier terme est irréductible, le deuxième représente le carré du biais du modèle (diffé¬ 
rence entre l’espérance de la prévision et la valeur moyenne de y 0 ). le troisième la variance 
de la prédiction. 

Plus un modèle sera complexe plus le biais sera faible, mais en général au détriment 
de la variance qui va augmenter. Le terme de biais correspond à l’ajustement du modèle 
sur les données dites d’apprentissage, ajustement qui s’améliore avec la complexité 
du modèle. La variance correspond à la variabilité de la prédiction pour de nouvelles 
données. 
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19,4.2.2 Evaluation et choix de modèle 

La ligure 19.5 montre qu’il existe un compromis entre biais et variance correspondant 
à un optimum. Comment l’obtenir empiriquement 7 II faut pour cela esLimer l’erreur 
du modèle sur des données qui n’ont pas servi à l’apprentissage. Lorsque Ton dispose 
d’un nombre important d’observations, on partagera les données en plusieurs sous- 
ensembles : 

- l’ensemble d apprentissage sert à estimer chaque modèle en compétition 

- l’ensemble de validation sert à choisir le meilleur modèle, celui qui réalise les 
meilleures prédictions. 

- L’ensemble de test sert uniquement à estimer la performance du modèle retenu 

On peut ainsi choisir le « bon » modèle quelque soit sa nature, par exemple en 
faisant varier un paramètre de sensibilité, le nombre de neurones, le nombre de prédic¬ 
teurs etc. 

Par rapport au chapitre précédent paragraphe 18.7.1, on voit qu’un troisième ensem¬ 
ble a été introduit : en effet si l’on doit choisir un modèle en utilisant Léchantillon-test 
celui ci sert à apprendre le choix de modèle et devient en quelque sorte un échan¬ 
tillon d’apprentissage. On ne peut utiliser alors la mesure d’erreur car elle est biaisée ; il 
est donc nécessaire de garder des données qui ne servent à rien d’autre qu’à évaluer 
l’erreur. 

Si les données sont en nombre insuffisant, on utilisera la technique de validation croisée 
qui consiste à partager les données en K sous-ensembles disjoints de même taille et à calcu¬ 
ler Terreur de prédiction moyenne sur chacun de ces sous-ensembles, les AM autres formant 
l’échantillon l’apprentissage. Pour K — n on retrouve la méthode utilisée en analyse discri¬ 
minante. Le choix de K est encore un compromis biais-variance : K trop grand va donner une 
grande variance avec un faible biais, tandis que K faible sous-estimera le biais. En pratique 
K = 10 est souvent préconisé. 
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19.5 LES APPORTS DE LA THÉORIE STATISTIQUE 
DE L’APPRENTISSAGE DEV.VAPN1K 

La théorie développée par V. Vapnik (1998) apporte des vues éclairantes sur ce que l’on 
appelle la généralisation qui n’est autre que la faculté d’un modèle à prédire correctement 
de nouvelles valeurs et pas seulement à rendre compte du passé. Un grand nombre de résul¬ 
tats font appel à une mesure spécifique de la complexité d’un modèle, la dimension de 
Vapnik-Cervonenkis, ou VC-dimension notée h. Nous donnons ici un aperçu sans démons¬ 
tration de cette théorie. 


19.5.1 Risque et risque empirique 

Soit un modèle de prévision y — f(x ; B), où f appartient à une classe paramétrée. On 
définit alors une fonction de perte L(y ; y), en général quadratique, mesurant l’erreur de 
prévision : 

- Si y est numérique, L(y ; y) - (y - y)~ 

- Si y est qualitative à deux modalités, L vaut 0 ou 1 selon que l’observation est bien ou 
mal classée. En prenant y et y à valeurs dans {— 1 ; +1 ) L peut s’écrire 

Uy ; y) = ~ \ y - y I = y ~ y) 2 


L dépend du paramètre 0. r 

Le risque est alors l’espérance de la fonction de perte R = E{L) = I L(~, 0 )dP(z) ou P(-) 

est la loi de probabilité conjointe de y et de x. Le choix optimal de 0 serait celui qui minimi¬ 
se R mais c’est une opération impossible quand on ne connaît pas la loi de probabilité P(z ). 

La méthode courante (moindres carrés par exemple) consiste alors à estimer B par la 

1 « 

valeur 0 qui minimise le risque empirique R vm „ = - YLv; ; /(.v,- : B)) sur un échantillon 

«« = i 

(apprentissage) tiré de la loi P(z). Avec d’autres formes de L, on retrouve l’estimateur du 
maximum de vraisemblance, les estimateurs de Huber etc. R emp est alors une variable aléa¬ 
toire et on doit se poser la question de sa convergence vers R lorsque n tend vers l’infini pour 
savoir si la méthode est « consistante ». Pour un modèle donné, le risque empirique est nul 
si la taille de l’échantillon est trop petite (modèle surparamétré) et croît ensuite jusqu’à 
atteindre une limite (quand les lois des grands nombres s’appliquent). De son côté, R dimi¬ 
nue jusqu’à une valeur limite. Ces deux limites coïncident-elles ? Si elles ne coïncident 
pas (figure 19.6 à droite), on a un modèle ou processus d’apprentissage non consistant ce 
qui peut être gênant : en augmentant n on aura une erreur systématique (biais) dans l’esti¬ 
mation de R. 

A quelle condition a t-on la consistance ? Paradoxalement cette question s’était peu posée 
avant les travaux de Vapnik. 
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Figure 19.6 


En moyenne le risque R est toujours supérieur au risque empirique. Avec des modèles sur¬ 
paramétrés, le risque empirique est faible et R grand. Un modèle sera dit robuste si les deux 
risques sont peu différents. Il est facile de trouver des modèles très robustes : le modèle cons¬ 
tant v = f(x ; 0) = a est très robuste mais sans intérêt, Il faut donc réaliser un compromis 
entre robustesse et ajustement. 

19.5.2 LaVC-dimension et l’inégalité deVapnik 

Nous nous limiterons maintenant au cas de la discrimination entre deux classes. La 
dimension de Vapnik-Cervonenkis d’une famille de fonctions de classement (ou clctssifieurs ), 
est une mesure du pouvoir séparateur de cette classe. Ainsi les droites du plan peuvent sépa¬ 
rer parfaitement 3 points non alignés (deux d’un groupe, un de l’autre) mais il existe des 
configurations de 4 points non séparables comme le montre la figure 19,7. LaVC-dimension 
des droites du plan est donc h = 3. 



Définition : 


La VC-dimension cl'mie famille de clctssifieurs est le nombre maximal h de points qui 
peuvent être toujours séparés par la famille de fonctions dans les 2 1 ’ configurations où 
ces points sont libellés ± / 
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Cela ne veut pas dire que toute configuration de h points est séparable, ainsi dans le plan, 
on ne peut pas toujours séparer 3 points alignés, mais que pour h + 1 points quelconques il 
existera toujours une configuration non séparable. 

Plus généralement les hyperplans de IR P ont une VC-dimension égale à p + 1. La 
VC-dimension des paraboles du plan est 4. 

La VC-dimension d’une famille de classifieurs n’est cependant pas toujours égale au nom¬ 
bre de paramètres, comme le montre l’exemple suivant classique. Dans M, la VC-dimension 
des fonctions/définies par f(x) = 1 si sm(0.v) > 0 et f(x) = —1 si sin(0.v) < 0 est infinie car 
en augmentant 0 on peut séparer un nombre arbitraire de points (figure 19.8). 



Revenons maintenant sur les SVM, plus précisément l’hyperplan à vaste marge présenté 

au 18.3.1.1. Considérons les hyperplans de IR 77 dont l’équation est contrainte par ||P|| 

ce qui correspond à une demi-marge supérieure à C (figure 18.12). Soit p le rayon de la plus 
petite sphère contenant toutes les observations alors la VC-dimension h est bornée et est infé¬ 
rieure à p + 1 : 


li < min 




+ 1 


eut désignant la partie entière d’un nombre, (cf Burges 1998 pour une démonstration rigou¬ 
reuse). 

La VC-dimension est étroitement liée aux performances d’un processus d’apprentissage, 
ici une famille de classifieurs. 

Vapnik a montré les deux résultats suivants : 

® la condition nécessaire et suffisante pour avoir la consistance est que /; soit fini. 

• Avec une probabilité d'erreur a : R < R cmp + 

L’inégalité de Vapnik donne une borne pour le risque à partir du risque empirique dépendant 
de h et de n, mais pas de la distribution des observations. Elle est donc universelle. 


h(ln(2n/h) + 1) — ln(a/4) 
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Plus h est petit, plus le radical se réduit, ce qui explique les bonnes performances des SVM, 
et de la régression ridge, même avec un grand nombre de variables, lorsque l’on met des 
contraintes sur les coefficients. 


19.5.3 Le principe de minimisation structurée du risque 


La borne de l’inégalité est la somme du risque empirique (l’erreur d’apprentissage) et 
d’un terme qui ne dépend que du rapport h/n (et de la probabilité d’erreur). On peut donc 
choisir des modèles plus complexes lorsque le nombre d’observations croît, sans faire aug¬ 
menter la borne (elle décroit d’ailleurs puisque le risque empirique va décroître en moyenne 
en fonction de h). 


A n fixé la minimisation de la borne fournit un critère de choix de modèles qui ne fait 
appel ni à des hypothèses de distributions comme les vraisemblances pénalisées, ni à un 
échantillon-test : c’est le principe du SRM (Structural RiskMinimization). On considère une 
famille emboîtée de modèles de VC-dimensions croissantes /j, < h 2 < . . , (par exemple des 
modèles linéaires (ou non) à nombre croissant de prédicteurs, des perceptrons multicouches 
où on augmente le nombre de neurones de la couche cachée, ou le nombre de couches ayant 
le même nombre de neurones etc.). Pour chaque valeur on estime le modèle sur les don¬ 
nées et on calcule le risque empirique. Le risque empirique décroit (en moyenne) avec h tan¬ 


dis 


que y 


/i(ln(2n//i) +1) — ln(a/4) 


croît avec h. On choisit alors le modèle qui cor¬ 


respond au mimum de la somme de ces deux termes : c’est un compromis entre ajustement 
et robustesse ; la figurel9.9 illustre le SRM (rappelons que h est un entier). 


L’approche du SRM fournit une solution au problème du choix de modèle en mettant bien 
en évidence ce qui caractérise véritablement la complexité d’un modèle. Cette approche s’est 
révélée féconde dans de nombreux cas. 


Quelques remarques : 

L’inégalité de Vapnik est une inégalité universelle du type des inégalités de Bienaymé- 
Tchebyshev ou Markov. Elle est intéressante car elle ne dépend pas d’hypothèses sur la dis¬ 
tribution des données, en revanche la majoration qu’elle donne peut être très large surtout si 
h/n est grand : c’est une fonction croissante non bornée de h/n qui peut dépasser 1, ce qui est 
sans intérêt pour un risque, qui est une probabilité. De nombreux travaux ont été consacrés 
a la recherche de bornes plus strictes sous certaines hypothèses. 

Lorsque la VC-dimension est infinie, l’inégalité ne s’applique pas. On sait qu’il n'y a pas 
convergence du risque empirique vers R, mais cela n’empêche pas certaines méthodes 
comme celle du plus proche voisin ou les SVM à noyaux gaussiens, de donner de bons résul¬ 
tats : il y a un biais mais R peut-être faible. 

L’inégalité donne une borne avec une probabilité d’erreur, elle n’est donc pas certaine et 
on peut donc trouver des résultats meilleurs ou pires. 

Le calcul de la VC-dimension n’est pas simple et dans bien des cas, on ne connaît pas la 
valeur de h mais seulement des approximations ou des bornes, ce qui limite l’usage du SRM. 
Dans le cas où l’inégalité de Vapnik est inutilisable, il vaut mieux choisir le modèle avec une 
technique de validation croisée. 
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S9.6 PRÉDIRE OU COMPRENDRE ? 

La complexité de certains algorithmes de prédiction en font souvent des boîtes noires que 
l’on ne peut en général pas interpréter. La notion de modèle diffère alors du sens communé¬ 
ment établi : il ne s’agit plus d’une représentation de la réalité issue d’une théorie scienti¬ 
fique (physique, économique, biologique, psychologie,. . .) mais seulement d’une technique 
de prévision. Si le problème est uniquement de prédire, une méthode doit être jugée du 
point de vue de son efficacité et de sa robustesse : les techniques de choix de modèles de type 
SRM ou validation croisée apportent une solution. Peut-on prédire sans comprendre ? Cette 
question peut choquer, mais au delà du débat philosophique, les progrès de outils de calcul 
semblent bien montrer que oui. 

De nombreuses applications ne nécessitent pas de disposer d’une théorie, qui serait 
d’ailleurs bien difficile à élaborer : par exemple la prévision du comportement des 
emprunteurs, la détection de segments de consommateurs potentiels d’un produit. La sta¬ 
tistique est dans ce cas un outil d’aide à la décision et non un élément de la recherche 
scientifique. 

La « meilleure méthode » est certes celle qui donne les meilleures prévisions, encore 
faut-il qu’elle soit acceptable lorsqu’elle aboutit à prendre des décisions concernant des per¬ 
sonnes. La personne lésée, ou qui pense l’être, est en droit de demander des explications lui 
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permettant de comprendre la décision* 3 ). Un arbre de décision, à la rigueur un score linéai¬ 
re, seront compris, car on pourra expliquer que telle variable a eu telle influence ; il n’en 
sera pas de même pour une technique d’estimation de densité, un SVM non-linéaire ou un 
réseau de neurones. 

L’acceptabilité des méthodes varie dans le temps, et telle technique qui pouvait paraître 
complexe à une époque peut devenir usuelle 20 ans plus tard, par suite de la diffusion et de 
la formation aux outils. 


3bœ En France, la Commission Nationale Informatique et Libertés s'assure que les traitements statistiques ne peuvent 
nuire aux droits de l'homme et aux libertés individuelles.Voir S.Tuffery (2005). 



Sondages 


L. 


20.1 OBJECTIFS ET NOTATIONS 

20.1.1 Généralités 

Les méthodes de sondage ont pour objectif de tirer dans une population concrète des 
échantillons destinés à estimer avec la meilleure précision possible des paramètres d’intérêt. 
Le tirage équiprobable avec remise qui conduit à des échantillons de variables aléatoires 
indépendantes et identiquement distribuées est la base des développements des chapitres 
précédents et est le modèle de la statistique mathématique ; ce mode de tirage ne correspond 
en fait pas à la pratique et n’est au mieux qu’une approximation commode. Les sondages 
réels portent sur des populations Finies et sont effectués par tirage sans remise, pour ne 
risquer d’interroger deux fois le même individu. Les échantillons ne sont plus constitués de 
variables indépendantes, et le tirage ne se fait pas toujours avec les mêmes probabilités. 

Ce chapitre a pour objectif de donner une initiation à la théorie des sondages aléatoires, 
et ne prétend nullement couvrir le sujet. En particulier, il faut savoir que les erreurs dues à 
l’échantillonnage ne sont qu’une partie (pas toujours la plus importante) de l’erreur globale 
qui comprend les erreurs de couverture, de mesure, de non réponse etc. Bien des sondages 
sont effectués avec des méthodes non-aléatoires comme la méthodes des quotas qui ne sera 
pas traitée ici. Le lecteur qui voudrait compléter son information se reportera au livre de 
P. Ardilly (2006). 

20.1.2 Notations 

Introduisons maintenant les notations utilisées : 

N est la taille de la population. N sera supposé connu, ce qui n’est pas toujours vrai... 

Chaque individu de la population (la population est aussi appeléee base de sondage) 
sera désigné par un identifiant i. On notera Y la variable d’intérêt dont les valeurs sont 

(fj, Y 2 . Y n ). Y n'est pas une variable aléatoire. On suppose que Y, sera obtenu sans 

erreur si l’individu (ou unité) i est sélectionné. Dans ce qui suit Y sera une variable 
unidimensionnelle numérique, éventuellement binaire quand il s’agira d’estimer des 
proportions. On s’intéressera à l’estimation de quantités dépendant de Y comme la 
moyenne Y de Y sur la population, ou le total des valeurs T(Y) noté T quand il n'y aura 
pas d’ambiguïté. 

_ t N w 

Y = - X Yf T = y Y; 
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1 jV - | N _ /V 

On notera : cr 2 = — Y (7, — F) 2 la variance et S 2 = -Y (F,- - Y) 2 =-<r 2 la 

N ,■=, N ~ 1 ", N - 1 

variance corrigée de F II peut paraître curieux d’utiliser la variance corrigée quand il ne 
s’agit pas d’un échantillon, mais cela conduit à des formules plus simples. 

n 

Un échantillon est un sous-ensemble de ;/ unîtes de la population, t — — est le taux de 
sondage. Il y a C,ÿ échantillons distincts possibles, chacun noté s. 

Dans un sondage aléatoire chaque unité i de la population a une probabilité de tirage, ou 
probabilité d'inclusion Ttj bien définie qui ne doit pas être nulle sous peine de ne pouvoir 
faire des estimations sans biais. On notera que la somme des probabilités d’inclusion vaut 

N 

(pour des plans de taille fixe) : Y 1T i = 11 et que ' 7T i est égale à la somme des probabilités des 

/= i 

échantillons qui contiennent l’unité i : rq = Y pOO* Un plan de sondage correspond à une 

.!(/ e a) 

distribution de probabilités sur l’ensemble des échantillons. 

On utilisera également les probabilités d’inclusion d’ordre 2 : qui donnent la probabi¬ 
lité que les unités / et j appartiennent à l’échantillon. 

On appelle variables de Cornfield les indicatrices 8,- correspondant à la sélection des unités. 

f 1 si i g s 

Ce sont des variables de Bernoulli telles que : 8; = 1 

LO si i £ s 

On a : £(B/) = iq 

F(ô,) - tt,(1 - TT,) 

cov(S / ; 8,-) = 'TTij - TT,ir y 

On désignera par une lettre minuscule y f la valeur trouvée dans un échantillon. Cette 
valeur est donc aléatoire si le tirage de l’unité i est probabiliste. 

La moyenne de l’échantillon sera y = — Avec les variables de Cornfield, cette 

>l ie.r 

1 N 

moyenne s’écrit : v = - Y F, 8,-. 

« #= i 


20.2 LE SONDAGE ALÉATOIRE SIMPLE 


Il constitue la base des autres méthodes. C’est un tirage équiprobable sans remise : on a 

71 

donc TT, = — = t et tous les Cft échantillons sont équiprobables. 


20.2.1 Estimation de la moyenne 

La moyenne de l’échantillon est un estimateur sans biais de la moyenne de la population. 
En effet : 

1 N ] N 1 V _ 

£< v) = - 2 y,e( s,) = - S = - 2 y ,- = y 

«i = i n i= i «,= l N 
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Le calcul de la variance est. plus complexe car avec un tirage sans remise, les variables de 
Cornlïeld ne sont pas indépendantes, mais par raison de symétrie tous les couples auront la 

n 


meme covariance tt ,y - 17 ,'ît,- = — \^~j . Calculons la probabilité d’inclusion d’ordre 2 : 

il y a CjJ zl échantillons incluant / et j. Comme ils sont tous équiprobables : 

C’uZ\ n(n ~1) n — 1 


TT, 


C% N(N - 1) 


N 


Après quelques calculs simples on trouve que cov(S,- ; 5 ) — — 


T(1 - T) 

N - 1 


[V \ | r » 

Comme : V{ v) = V[ - X P,- = — 

Il , / /r 


2lpV(S.) + 2 1 ?!/ cov(5 f ; 8 ; ) 

L/= i 


-T(! - T) 


/ 2 


jV K) 

V y 2 _ V *> J i 

f èiv-i 

.1=1 IrJ /V *. 

S 2 


1 


“T(l - T) 


N N — 


A/ 

= — T( 1 — t)5' 
//- 


On en déduit V(v 1 = (1 — t) — qui est donc inférieure à la variance du tirage avec remise. 

n 

Comme S 1 est inconnue, on l’estime par s 2 =-— Tfy,- — y) 2 dont on peut montrer le 

^ 1 ie.\ 

caractère sans biais E(s 2 ) = S 2 . On en déduit donc l’estimation de la variance de la moyenne 

V( v) = (1 — t)— et un intervalle de confiance approximatif si n est assez grand : 
n 


1 — T — Il 

v ~ 2 s\ -< Y < v + 2 a-' 


L’estimation d’un pourcentage p s’en déduit en considérant que Y est une variable de 
Bernoulli de paramètre p. Si/est le pourcentage estimé sur l’échantillon, on a : 


V(f) = (1 - T) 


p{\-p) N 


que l’on estime par : 


V(f) = (1 ~ t) 


n N - 1 
P ( 1 ~ P) 


n - 1 


En pratique si le taux de sondage est faible (inférieur à 10 %) on a 

- n(l — n) 

V( f) = — -— 


et on retrouve les résultats du chapitre 13. 

20.2.2 Algorithmes de tirage 


Une idée élémentaire consiste à tirer des entiers au hasard uniformément répartis entre 0 
et N, ce qui peut se faire avec un générateur de nombres aléatoires : on multiplie n par N et 



514 


20™ Sondages 


on arrondit à l’entier supérieur. Cette méthode n’est cependant pas utilisée en pratique car 
elle présente divers défauts : nécessité d’un grand nombre de décimales si N est grand, exist¬ 
ence de doublons. On préfère en général des algorithmes séquentiels permettant d’extraire 

des enregistrements d’un fichier numéroté de 0 à N ~ 1, comme le suivant : 

n 

On tire un nombre u : si u < — le premier enregistrement est sélectionne et on recommence 

pour le deuxième enregistrement en remplaçant n par n — 1 et N par /V — 1. Si le premier 
enregistrement n’est pas sélectionné, on tire un autre nombre u et le deuxième enregistrement 

est sélectionné si u < — — Après chaque tirage de nombre au hasard, N diminue d’une 

unité, tandis que n ne diminue que si une unité est tirée. On continue ainsi jusqu’à l’obtention 
des n unités. 


20.3 SONDAGE À PROBABILITES INEGALES 


Le sondage à probabilité égales est utilisable en l’absence de toute information. 
Supposons par exemple que l’on veuille estimer une production agricole en tirant au sort un 
certain nombre d’exploitations. Si l’on dispose d’un annuaire donnant les superficies, il est 
alors préférable d’effectuer ce tirage avec des probabilités proportionnelles à la superficie. 


20.3.1 L’estimateur de Horvitz-Thompson 


Supposons ici que l’on cherche à estimer le total de la variable d’intérêt T — 2 Y r On montre 

i = 1 
N 

alors que le seul estimateur linéaire sans biais de la forme T = 2 a i A = est: 


/ = i 


T = 2 


V; 




N N N | 

En effet pour que : E{T) — 2 a Xi^^i) ~ 2 CI i' I 'iY> = 2 Yj ~ T il faut que a { - —. 

i=l /=t i=l 

Comme les tt, sont inférieurs à 1, on l’appelle aussi estimateur des valeurs dilatées. 
L’estimateur de la moyenne s’en déduit aisément : 

1 


y = -2- 
Nit Tfi 


La variance s’exprime par 


N y 2 N y y 

vif) = X—o ~ Tti) + 2222^'j ~ qT ' 7r ^ 

i=l / /=./ ,l /“/ 


que l’on peut mettre sous la forme de Yates-Grundy : 


V(T) 




TT, TT 


lorsque la taille de l’échantillon est fixe. 







20œ Sondages 


515 


On en déduit une estimation de la variance : 


V(t) = \ EE 

- i,je.\ 


*a 


La formule de Yates-Grundy montre que l’on a intérêt à tirer proportionnellement aux 
valeurs d’une variable auxiliaire X corrélée (positivement!) à K ce qui est intéressant en cas 
d’effet taille (chiffre d’affaires, nombre d’employés, bénéfice , . .). 

Il peut arriver que certaines unités soient tirées d’office. Ainsi supposons que l’on veuille 
tirer 3 individus parmi 6 proportionnellement à : 


A] - 300 as = 90 A 3 = 70 a- 4 = 50 a 5 - 20 .y 6 - 20 


Les probabilités d’inclusion doivent donc être tt, 


nxi 





!'= I 


300 

Ce qui donne 7 T, = 3jr^ 


1. La solution est que l’unité 1 soit tirée avec Tr ( = 1 et donc que 


90 70 50 

rr-i = 2 -— 0.72 tt 3 = 2-= 0.56 tt, = 2-= 0.4 tt 5 = tt 6 


250 


250 


250 


20 

2 — = 0.16 
250 


20.3.2 Le tirage 

Le problème est assez compliqué car il y a une infinité de plans de sondages ayant des pro¬ 
babilités d’inclusion d’ordre 1 fixées. Les probabilités d’inclusion d’ordre 2 jouent ici un rôle 
important : elles devraient être strictement positives et telles que tt,, < 7 r ( 7 q pour pouvoir esti¬ 
mer sans difficulté la variance. Nous renvoyons au livre de Tillé (2001 ) pour plus de détails. 

Une des méthodes les plus utilisées, mais qui peut conduire à des probabilités d’inclusion 
d’ordre 2 nul les, est le tirage systématique dans les cumuls. Illustrons cette méthode sur 
l’exemple précédent. 

Il reste à tirer 2 unités parmi les unités numérotées de 2 à 6 . 

On cumule les probabilités d’inclusion, ce qui donne : 

iTn = 0.72 tt 2 + tt 3 = 1.28 n 2 + tt 3 + tt 4 = 1.68 

77-, + 77 3 + 77.J + 775 = 1.84 77 2 + 77 3 + 77., + T7 5 + 7T 6 = 2 

On tire ensuite un nombre au hasard u compris entre 0 et 1 et on sélectionne les deux indi¬ 
vidus dont les probabilités cumulées correspondent à u et u + 1. Supposons que u = 0.48 
l’unité 2 est tirée puisque u < 0.72 ainsi que l’unité 4 puisque 1.28 < u + 1 < 1.68. On 
vérifiera entre autres qu’il est impossible de tirer simultanément les unités 3 et 4. 


20.4 STRATIFICATION 

La stratification consiste en des tirages séparés effectués dans des sous-populations. 
Lorsque ces sous-populations sont plus homogènes que la population elle-même, ce qui est 
généralement le cas, la stratification permet d’obtenir des estimations plus précises qu’un 
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sondage aléatoire simple de même taille dans toute la population. C’est donc une méthode 
extrêmement efficace que l’on peut et doit utiliser aussi souvent que possible. 

Dans ce qui suit, on supposera que les tirages dans chaque strate sont effectuées selon le 
sondage aléatoire simple (équiprobable et sans remise). 

20.4.1 Formules de base 

On notera /V,. N 2 . .. N,,. . . N u les effectifs des sous-populations ou strates telles que 
N = | 

h = I 

La moyenne des moyennes de strates L,, Y 2 ■.. Y h ... Y H pondérée par les effectifs redonne 
la moyenne générale de la population : 

Y=y 

Y ^ N Yh 


La variance de la population se retrouve avec la formule de la variance totale (voir chap¬ 
itre 2) où les variances (non-corrigées) de chaque strate sont ap, crj ... cri • ■ ■ o# : 

v 2 = X ^077 + S (Ÿh ~ Y) 2 = ajv + crj- 

cr(v est la variance intra-strates et crÿj la variance in ter-strates. 

Les tailles des échantillons sont n h n 2 , . . . n h , . . . ri/, et on dispose des moyennes et 
variances corrigées de chaque strate : y,, y 2 , . .. y,„ ... ÿ H et erp â\, ... âj t ,.. . ô]j. 

Chaque moyenne Y h étant estimée sans biais par ÿ h , la moyenne générale est estimée par : 


V' ly h — 


qui est l’estimateur de Horvitz-Thompson. 
Sa variance se calcule aisément : 


V(Y ai 


= y J \- 


V(y„) 


II 

X 

/l = I 


N,.Y a,; N h 


_ h \ _^_h "h 

N ri 


Nu ~ 1 


rp 2 n„(n I: 

/v h = 1 


«/,)■ 


20.4.2 Répartition proportionnelle 

Ce cas particulier est celui où le taux de sondage est identique d’une strate à l’autre (on 
parle abusivement d’échantillon représentatif) : 

«a = A h ^ ^ ^ " 

ri N T/ ' N h N 


T 
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L’estimateur stratifié est alors identique à la moyenne usuelle de l'échantillon : 

il 


/ — x 1 LTi ~ — v !hi — _ , 

,\ir 2-i \ j y h 2j y h y -* pmp 

/;=! N /i=l n 


Y„ 


La variance se met sous la forme : 

n 


5/7 1 M, - n h 


V(Y P n,„) = -, SW, - n„)-£ = -, 


n h 


/ /V- 


soit : 


N ~ n " N b , 

V0U)=* — -l-sï 


nN /,= , A 


Si le taux de sondage est faible : 

- 


/j/V /v ?! 


, , — N - n S 2 

Or a- < a-, donc V(K< -si N est grand (cr — S) qui est la variance de 

N n 

l’estimateur du sondage aléatoire simple. 

Avec les mêmes probabilités d’inclusion d’ordre 1, l’échantillon stratifié représentatif est 
donc plus efficace qu’un échantillon simple de même taille dès que les Y h sont différents. 


20.4.3 Répartition optimale 


Lorsque les variances de strates sont connues, on peut encore améliorer l’estimateur stra¬ 
tifié et rechercher l’estimateur optimal à n fixé. 


-s. 1 H 

Développons V(Y m ) = —; ^N^N,, - n,,) 
•v~ lt= 1 


SÏ 

n u 


1 H Ç - 1 H 

AL y , = i n h N - Vl=1 


Le deuxième terme ne dépend pas de l’échantillon. On a alors à résoudre le problème 


H S 2 H 

suivant : min Y A,; — sous la contrainte Y = n 

h= I n h h- I 


H g2 H 

En annulant les dérivées partielles du Lagrangien, par rapport aux 

/i=l 11 h i=l 

effectifs inconnus (oubliant que ce sont des nombres entiers) on trouve la répartition de 
Neyman qui montre qu’il faut sur-représenter les strates les plus dispersées par rapport à la 
répartition proportionnelle : 


n h = n 


N h S h 
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Les effectifs doivent être arrondis. Le calcul peut se généraliser en considérant des coûts 
d'enquête différents par strate et en optimisant à budget fixé. 

On recommande souvent de faire beaucoup de strates pour améliorer la variance inter¬ 
classe, mais le risque est alors d’avoir des tailles d’échantillon trop faibles dans certaines 
strates. 


20.S SONDAGE EN GRAPPES ET TIRAGE SYSTÉMATIQUE 


On appelle grappes M sous-populations d’effectifs N h N 2 . . . N m . . . N lU . La méthode 
consiste alors à tirer ni grappes et à sélectionner tous les individus de chaque grappe. 
On connaîtra donc sans erreur le total et la moyenne de chaque grappe. L’intérêt essentiel 
de ce mode de tirage est son caractère économique, en particulier si les grappes sont des 
zones géographiques, car on diminue alors fortement les coûts de déplacement en face à face. 
Cette méthode est très utile lorsque la taille de la population est inconnue, car on n’aura 
besoin de connaître que la taille des grappes choisies. On ne pourra cependant pas estimer 
tous les paramètres. La taille de l’échantillon est aléatoire si les grappes ont des effectifs 
différents. 


20.5.1 Tirage de grappes à probabilités inégales 

M m 'Y 

Cherchons à estimer le total T — T ,. L’estimateur de Horvitz-Thompson est T = 

i— ! /" = 1 1 ‘ / 

où les TT, sont les probabilités de tirage des grappes. La variance de cet estimateur est don¬ 
née par les formules du paragraphe 20.3.1 où on remplace Y ; par T t puisque tout revient à un 
tirage de m totaux parmi M. _ 

- [ "‘ T 1 N-Y 

L’estimateur de la moyenne est Y — — Y — — — Y,—— et nécessite la connaissance 

N /= i Tïj N ] TT,- 

de N. 


Un cas intéressant est celui où les grappes sont tirées avec des probabilités proportion- 

N, 

nelles à leur effectif tt, = m—. La taille de l’échantillon est aléatoire d'espérance 

^ ^ N-in m 

£(».,) = E(2>,) = Ë/V,E(5,) = = jNn?. 

iss i = l i=l N '*r=i 

JL 1 >“ _ 

L’estimateur de la moyenne est alors Y = — ^y ; et sa variance peut être estimée par : 

tn , = 1 


1/(7) = 


_1_ 

m{m — 1) j 


I 



Une bonne répartition en grappes est caractérisée par des moyennes de grappes peu 
différentes de la moyenne générale ; c’est donc l’inverse de la stratification : ici les grap¬ 
pes doivent être les plus hétérogènes possibles (chacune doit pouvoir représenter la 
population). 
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20.5.2 Tirage de grappes à probabilités égales 


m 


Cetle fois rr, = — d’où E(n s ) = E 2N; = 2^77 = ~TT- 


M 


m Nm 


M M 


- M ry M — m M 2/ I 

L'estimateur du toial T — — X T } a pour variance V(T) =-X 7j 

m jçs M — 1 ni , = | 

- Ml™ - 

L’estimateur de la moyenne est 1 —- X NY. 

ni N 


20.5.3 Le tirage systématique 



Ce mode de tirage est très utilisé quand on ne sait pas, ou que l’on ne veut pas, faire un 
tirage aléatoire équiprobable. Supposons que N est un multiple de Par exemple on veut tirer 
10 individus parmi 1000 : on commence par tirer au hasard un nombre entier entre 1 et 100, 
si ce nombre est 27, le premier individu sera le n°27, le deuxième le n°127, etc. jusqu'au 
n°927. 11 s’agit donc en fait d’un tirage d’une seule grappe parmi M — N/n grappes. 

De façon générale si l’on a tiré un entier h, les individus sélectionnés ont les numéros : 
/j, /; + M, h + 2M. . h + 0? - l)M. 

L’estimateur de la moyenne est simplement la moyenne de la grappe sélectionnée et sa 

- A/ (YN- Ÿ V 

variance est V(Y) = MY —-. 

;tï\ N M / 

Lorsque le fichier se trouve être trié selon un ordre proche de K, la variance peut être nota¬ 
blement plus faible que pour le tirage aléatoire simple. On pourra s’en convaincre en prenant 
à titre d’exercice le cas Y, = i. Il est incorrect d’utiliser la variance de l’estimateur du tirage 
aléatoire simple sauf si la base de sondage a été préalablement triée au hasard. 


20.6 REDRESSEMENT 


Lorsque l’on dispose a posteriori d’une information supplémentaire corrélée avec la 
variable d’intérêt Y, on peut améliorer la précision des estimations. Cette information peut 
être qualitative ou quantitative. Nous exposerons brièvement les principaux cas dans le cadre 
d’un sondage aléatoire simple, pour une variable d’intérêt quantitative. 

20.6.1 Quotient, régression 


Le cas suivant est inspiré de : Ardilly, Tillé (2003) page 173. On effectue un sondage auprès 
de n = 100 entreprises parmi /V = 10 000 pour estimer le chiffre d’affaires moyen. On trouve 
v_= 5.2 10 6 €. On sait par ailleurs que le nombre moyen de salariés de la population est 
X — 50. Or dans l’échantillon on a x = 45. Comme on soupçonne une relation de proportion¬ 
nalité entre K et X, on effectue une règle de 3 : c’est l’estimation par la méthode du quotient : 


v 


</ 


= y 


X_ 

x 


On corrige donc l’estimation initiale et on trouve v„ — 5.8 10 r ’ € 

c * */ 
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Cet estimateur est biaisé, mais le biais est faible si n est grand. Comme il est biaisé, il vaut 
mieux calculer son erreur quadratique plutôt que la variance. On montre qu’elle est approxi¬ 
mativement égale à : 


E{ÿ„ ~ Y) 2 


N - n 
Nn 


S 2 


2 -=■ S n . + 
X * 



que l’on estime par 


N — n 1 
Nn n - l 


H 


Yzr 


i= 1 


avec : 


Zi = )’i ~ rx, où 




y . 
x 


Il y a amélioration si -7 > - 
y S- 2 

La méthode du quotient suppose une stricte proportionnalité. Si la relation est du type 
Y = a + bX , il vaut mieux effectuer une régression linéaire et utiliser l’estimateur : 


y r ~ y + b(X — .v) 


mais pour calculer b, il faut alors disposer des valeurs de X pour chaque unité sélectionnée 
et pas seulement de la valeur moyenne. 


20.6.2 Post-stratification 

Lorsque le caractère auxiliaire est qualitatif, l’idée consiste à effectuer un calcul comme 
pour l’estimateur stratifié vu plus haut : 


ji i « 

y post Tt 2 y h 

/v /i=i 


en répartissant a posteriori les observations selon les modalités du caractère auxiliaire. 

La différence essentielle ici est que les effectifs n h par strates ne sont plus fixés a priori 
mais sont aléatoires de loi hypergéométrique. 

L’estimateur reste sans biais (si les post-strates ne sont pas vides), mais sa variance va 
prendre en compte les fluctuations des n h . 

Le calcul de la variance est assez complexe. On commence par écrire la formule de la 
variance totale en conditionnant par les n h et les supposant non-nuls. 



4y/n h 


+ E 


V Y/n , 


Le premier terme est nul car l’espérance conditionnelle vaut toujours Y. La variance 
conditionnelle vaut : 


«p 2 

N 


2 77 v<ÿ h ) - 2 


m 2 

\N 


2 N,, 


"h 


N/Ji/, 


Sr, 



par la formule habituelle. 
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Il faut en prendre ensuite l'espérance $ \J ~ n E a P us 

formule simple pour l'espérance de l'inverse d’une hypergéométrique. Après des dévelop¬ 
pements limiLés pour n grand, que l'on omettra ici, on trouve finalement : 



N h . 1 


n + ,r 


E l 


-K 

N 1 h 


Le premier terme n’est autre que la variance de la stratification a priori avec répartition 
proportionnelle, ce qui prouve que stratifier a priori est toujours meilleur qu’a posteriori. 
Pour que la stratification a posteriori soit plus efficace que le sondage aléatoire simple, il faut 
que le deuxième ternie ne soit pas trop grand : cela se produit si le rapport de corrélation 
-q 2 (y/J'0 est grand. Lorsque ce rapport est nul, la stratification a posteriori est au contraire 
moins efficace que le sondage aléatoire simple. 

20.6.3 Poids de redressement 

Considérons line post-stratification selon H post-strates. L'estimateur de la moyenne de la 
variable d’intérêt est ; 


H AJ. 11 A/, 1 

\n ,v /i~ _ ■'o /v “ 1 V* 

A! h ~ 2 j \r Z) h, 

/i = i N i,= \N 7?/, i 


H «b Al, 

S 2 ^ 1 . 

h = i t. 


N h 

On appelle poids de redressement le coefficient —. La somme des poids de redressement 

Nn h 


sur les 7? unités de l’échantillon vauL alors 1. Ceci permet d'obtenir l’estimation de Y comme 
une moyenne pondérée des valeurs observées. Il ne faut pas confondre les poids de redresse¬ 
ment avec les poids d’échantillonnage (probabilités d’inclusion). 

11 h 

Le redressement consiste a modifier les proportions des post-strates — pour les rendre 

ii 


égales à — à l’aide d’une règle de 3. 
N 


Lorsque l’on veut redresser sur plusieurs variables qualitatives à la fois (par exemple : 
sexe, CSP, etc.) le calcul des poids de redressement est plus complexe et s’effectue à Laide 
d'algorithmes itératifs dont le plus connu est celui de Deming et Stephan qui consiste en une 
suite de règles de 3 sur chaque critère. 


es Exemple : 1 000 individus ont été interrogés. La répartition par sexe et profession est la 
suivante 



PI 

P2 

P3 

Total 

H 

300 

100 

200 

600 

F 

100 

150 

150 

400 

Total 

400 

250 

150 

1000 
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Supposons que les vraies marges soient 500 et 500 pour le sexe et 350,300, 350 pour la 
profession. 

Une première règle de 3 permet d'obtenir les marges souhaitées pour le sexe : on multi¬ 
plie la première ligne par 500/600 et la deuxième ligne par 500/400 



PI 

P2 

P3 

Total 

H 

250 

83 

167 

500 

F 

125 

187.5 

187.5 

500 

Total 

375 

270.5 

354.5 

1000 


On redresse ensuite en colonne pour ajuster les effectifs marginaux de la variable profes¬ 
sion, ce qui change les marges en ligne : 



PI 

P2 

P3 

Total 

H 

233 

92 

165 

490 

F 

117 

208 

185 

510 

Total 

350 

300 

350 

1000 


Puis en ligne : 



PI 

P2 

P3 

Total 

H 

238 

94 

168 

500 

F 

115 

204 

181 

500 

Total 

353 

298 

349 

1000 


En l’absence de cases vides, l’algorithme converge rapidement et donne les poids de 
redressement à appliquer à chaque case. Ainsi à la quatrième itération (très proche du résul¬ 
tat souhaité), les 300 individus H et PI ont chacun un poids de 0.236. La somme des poids 
de redressement des 1000 individus vaut 1000. 



PI 

P2 

P3 

Total 

H 

236 

95 

168 

499 

F 

114 

205 

182 

50\ 

Total 

350 

300 

350 

1000 


L’utilisation de redressement sur plusieurs critères doit être effectuée avec précaution 
pour éviter des poids trop dispersés ; il ne faut redresser que sûr des critères corrélés avec la 
variable d’intérêt, sinon on n’améliore pas les estimations. s 




Plans d’expériences 



Avec les techniques de sondage, les plans d’expériences constituent la deuxième grande 
méthodologie statistique pour recueillir des données. Tl ne s’agit plus ici d’observer des 
individus existants en allant les chercher dans leur population, mais de provoquer des résul¬ 
tats, ou « réponse », en faisant varier intentionnellement certains « facteurs » dans le but 
d’étudier le modèle liant la réponse aux facteurs. 

Les objectifs sont divers : par exemple déterminer quels sont les facteurs influents, esti¬ 
mer au mieux le modèle, trouver pour quelles valeurs on peut obtenir une valeur optimale de 
la réponse . . . 

Un des grands intérêts des plans d’expériences est de pouvoir réduire le nombre des 
expériences à effectuer en les choisissant judicieusement d’où des économies parfois considéra¬ 
bles. Ainsi avec 10 facteurs à 2 niveaux chacun, au lieu de faire les 2 10 — 1024 expériences 
possibles, un plan de Plackett et Burman en proposera seulement 12 et un factoriel fractionnaire 
16. Mais les résultats ne seront valables que si aucune intéraction n’existe entre les facteurs. 

La détermination d’un plan d’expériences, et plus généralement d’un dispositif expéri¬ 
mental, ne peut donc se concevoir en dehors du modèle de régression censé représenter la 
relation entre réponse et facteurs. Tel plan sera adapté à un modèle sans interaction avec 
effets du premier degré, tel autre pour un modèle du second degré, tel encore pour un modèle 
à facteurs qualitatifs, etc. 

Dans un modèle linéaire y = Xj3 + e, il s’agit donc de trouver la matrice X. 

La planification des expériences ne date que du XXème siècle : développée tout d’abord 
en agronomie avec les travaux de Fisher, puis dans diverses branches de la recherche indus¬ 
trielle en particulier en chimie puis en mécanique. 

Ce bref chapitre n'est qu’une introduction à ce vaste domaine, dans le cas de modèles 
linéaires. Nous renvoyons à l’ouvrage collectif édité par J.J. Droesbeke & al. (1997) pour un 
traitement plus complet. 


21.1 INTRODUCTION 

21.1.1 Vocabulaire 

La terminologie varie fortement d’un domaine d’applications à l’autre et mérite donc 
d’être précisée. 
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Tout d'abord la variable y s'appellera la réponse, les variables explicatives x } des fac¬ 
teurs. Ces facteurs peuvent être qualitatifs (type d'engrais, marque) avec des modalités ou 
bien quantitatifs (température, hygrométrie) avec des niveaux. Une expérience ou essai ou 
traitement sera une combinaison de modalités ou niveaux des facteurs. 

Toutes les combinaisons ne sont pas réalisables, ce qui conduit à définir le domaine 
expérimental, souvent un hypercube pour des facteurs quantitatifs. 

V 

En général le nombre d'expériences réalisables sera fini JJnq, mais souvent très élevé, 

j= ' 

même si chaque facteur ne peut prendre que quelques niveaux m y 

On distinguera la matrice d’expériences qui est la liste des essais a effectuer, du dispo¬ 
sitif expérimental qui précise l’ordre des essais. Le plus souvent ce essais seront effectués 
dans un ordre aléatoire obtenu par permutation des lignes de la matrice d'expériences : c’est 
la randomisation. On recourt également à la mise en blocs , consistant à répartir les essais 
en sous-ensembles aussi homogènes que possibles. Ces dispositifs ont pour but d’éliminer 
l’influence de certains facteurs non contrôlables comme la température extérieure, l’enso¬ 
leillement, etc. 

La matrice du modèle X se déduit de la matrice d’expériences : on ajoute des colonnes en 
tenant compte du degré et des interactions entre facteurs. Ainsi pour un modèle linéaire du second 
degré à 2 facteurs quantitatifs, y = p 0 + (3,a 1 4- (3 2 -v 2 4- p 3 (.v 1 ) 2 + (T,(a 2 ) 2 4- P^v'.v 2 Te. X 
possédera 6 colonnes obtenues en ajoutant une colonne de 1 pour le ternie constant, 2 colonnes 
correspondant aux carrés des variables et une à leur produit. 

On parlera d ’effets du premier degré, du second degré, d’effets d 'interaction. 

L’interaction entre A et B se traduit par la non additivité des effets au sens suivant : si l’on 
étudie les variations moyennes de la réponse selon A. l'effet de A ne doit pas dépendre du 
niveau du facteur B. Illustrons ce concept par l’expérience suivante (adaptée de Sado “Plans 
d’expériences”, AFNOR 1991) : on mesure le rendement T d’une réaction chimique selon 
deux facteurs température T et concentration C : T varie de 50 à 100 °C et C varie de 20 à 
30 g/l. On recode les niveaux en - 1 et 4-1 et on effectue 4 essais aux extrémités du domaine 
de variation (voir plus loin) : 


Essai 

T 

C 

Y 

1 

-1 

— 1 

25 

2 

+ 1 

-1 

31 

3 

-1 

4-1 

24 

4 

4-1 

4-1 

38 



^^38 

31 

T = + 1 

25 — 

-1- 

24 


+ 1 


-1 


C 
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Le graphique précédent montre que l’effet de la température n’est pas le même selon le 
niveau de la concentration : il y a augmentation de F quand la température augmente, mais 
cette augmentation dépend de C : elle est de 6 pour C = - I et de 14 pour C ~ +1. 
L’absence d’interaction se seraiL traduite par des segments parallèles. 

On verra plus loin que certains plans ne permettent pas d’estimer tous les effets des fac¬ 
teurs, c’est le phénomène de confusion ou d’a/ias. 

21.1.2 Optimalité et orthogonalité 

Supposons le nombre n d’essais fixé. S’il s’agit d’estimer au mieux les paramètres du 
modèle linéaire y = Xp + e. on cherchera des propriétés d’optimalité pour la matrice de 
variance-covariance des p. On sait d’après le paragraphe 17.2.1.1 que cette matrice vaut 
V(p) = d~ (X'X) H . L’optimum ne dépend que de X et non de la réponse. Obtenir des esti¬ 
mateurs de variance minimale revient à définir un critère de maximalité pour X’X. 

Le critère le plus utilisé est celui du déterminant maximal ou D-optimalité maxjX’X |. 
Il revient à minimiser le volume de l’ellipsoïde de confiance des p, pour un niveau de 
confiance donné. 

Il existe bien d’autres critères, mais moins utilisés comme la A-optimalité : 
min (Trace (X'X) -1 ) qui revient à minimiser la somme des variances des estimateurs 
des p. 

La matrice X doit être de plein rang : pour des facteurs qualitatifs, on éliminera une indi¬ 
catrice par facteur comme dans le modèle linéaire général. 

Pour des facteurs quantitatifs, on a vu au chapitre 17 paragraphe 17.3.2.1 que la 
variance de chaque coefficient de régression estimé était minimale si les variables expli¬ 
catives étaient non corrélées deux a deux : les colonnes de X sont orthogonales. Les plans 
orthogonaux sont donc optimaux, ce qui a conduit à privilégier leur recherche, d’au¬ 
tant plus que l’interprétation des résultats par l’analyse de variance en est très simple et 
que les calculs peuvent se faire manuellement, avantage essentiel avant l’apparition des 
ordinateurs. 

Cependant de tels plans n’existent pas toujours : ainsi il est facile de voir qu’il est impos¬ 
sible d’obtenir des colonnes orthogonales pour un modèle linéaire du second degré à cause 
des termes carrés. On pourra s’intéresser à d’autres propriétés comme l’/sovorionce par 
rotation \ c’est le cas si la variance de la prédiction de la réponse en un point x. qui vaut 
crix’fX'Xr'x, ne dépend que de la distance au centre du domaine (x'x)- et est donc indépen¬ 
dante de l’orientation des axes. 


21.2 PLANS POUR FACTEURS QUANTITATIFS 
ET MODÈLE LINÉAIRE DU PREMIER DEGRÉ 

Le modèle pour p facteurs est donc celui de la régression linéaire multiple classique : 
y = p 0 + (V + • • ■ + fV^ 
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2 S .2.1 Le cas de la régression simple 

Soit un seul facteur prenant ses valeurs dans un intervalle [x ltlin ; x nmx ]. On sait (chapi¬ 
tre 16, paragraphe 16,2.1) que la variance de l'estimateur du coefficient de régression 

cr 2 " 

vaut : V(P[) = —-. Si n est pair, — x) 2 est maximal lorsque n/2 valeurs de x 

Î(X,-XŸ 

1=1 

valent x min et n/2 valent x miIx . Le plan optimal consiste à effectuer les essais par moitié (l) aux 
extrémités du domaine, ce qui contredit l’intuition de beaucoup de praticiens qui ont ten¬ 
dance à répartir régulièrement les valeurs de x dans l’intervalle de variation. 

L’optimalité de ce plan est indissociable du modèle linéaire du premier degré. Si le 
modèle ne l’est pas et est par exemple du second degré y = |3 0 + |3|.y + (3 2 (-v) 2 + on 
ne pourra pas estimer p 2 : ü est alors nécessaire d’introduire des essais au centre du 
domaine. 


21.2.2 Plans orthogonaux pour p facteurs 

Comme la régression linéaire multiple est invariante par changement d’échelle des varia¬ 
bles, on notera - 1 et 1 les valeurs minimales et maximales de chaque facteur (niveau bas et 

(A min "A -t'm [lx ) 

A 2 

haut) ce qui revient à la transformation-. 

£iim -^min 
2 

Sans contraintes sur le domaine, les expériences à réaliser se situeront aux sommets de 
l’hypercube, en raison de la propriété du paragraphe précédent et seuls les niveaux -1 et 
1 seront utilisés. 

La transformation en —1, 1 facilite grandement la vérification de l’orthogonalité de la 
matrice X : X’X = «I. X doit être une matrice d’Hadamard qui n’existe que pour n multiple 
de 4. 

Il faut tout d’abord que n soit pair : pour chaque facteur le nombre d’essais au niveau — 1 
doit être égal au nombre d’essais au niveau 1 pour avoir l’orthogonalité entre la colonne de I 
(associée au terme constant (3 0 ) et la colonne associée à un facteur. Chaque colonne associée à 
un facteur est alors de moyenne nulle. Pour que deux colonnes associées à deux facteurs soient 
orthogonales, il faut que les 4 combinaisons de niveaux (—1 ; —1) (—1 ; 1) (1 ; -1) (1 ; 1) 
soient présentes le même nombre de fois : le plan est dit équilibré. 

21.2.2.1 Le plan factoriel complet 

Il consiste à effectuer les 2 r expériences possibles. Il est orthogonal et donc D- et 
A- optimal. La matrice d’expériences pour le plan complet avec p = 3 est la suivante. 


I mSi n est impair; on fait (n-1 )/2 essais à chaque extrémité, et on met au hasard le nième à une bonne ou l'autre. 
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essai 

A 

B 

C 

1 

2 

-1 

+ 1 

-1 

-1 

-1 

-1 

3 

-1 

+ 1 

-1 

4 

+ 1 

4-1 

-1 

5 

-1 

-1 

+ 1 

6 

+ 1 

-1 

+ 1 

7 

-1 

+ 1 

+ 1 

8 

+ 1 

+ 1 

+ 1 


La matrice du modèle X s’obtient en lui rajoutant la colonne de 1. 


T 

A 

B 

C 

1 

1 

-1 

+ 1 

-I 

-l 

-1 

-1 

1 

-1 

+ 1 

-1 

1 

+ 1 

+ 1 

-1 

1 

-1 

-1 

+ 1 

L 

+1 

-1 

+ 1 

1 

-1 

+ 1 

+ 1 

1 

+ 1 

+ 1 

+ 1 


Remarquons que le modèle y = [3 0 + Pi-v 1 + Pz -f 2 + P 3 a 3 4- e ne dépend que de 4 para¬ 
mètres et que l’on a huit essais. Cela va permettre d’estimer sans essais supplémentaires des 
effets d’interaction A :!! B, A*C, B*C qui correspondent aux produits des variables ; 

y = Po+ Pi-V 1 + P 2 -V 2 + p : .A' 3 + P12-V 'a 2 4~ [j 13 A''a 3 + p 23 .V 2 A' 3 + £ 


La matrice associée à ce modèle s’obtient en rajoutant les colonnes obtenues en effectuant 
les produits terme à terme de deux colonnes parmi A, B, C. On vérifie que cette nouvelle 
matrice est encore orthogonale. 


I 

A 

B 

C 

A |! B 

A :,: C 

B*C 

1 

-1 

-1 

-1 

+ 1 

4-1 

4-1 

1 

+ 1 

-1 

-1 

-1 

-1 

+ 1 

1 

-1 

+ 1 

-1 

-1 

+ 1 

-1 

1 

4-1 

+ 1 

-1 

+ 1 

-I 

-1 

1 

-1 

-1 

+ 1 

4-1 

-1 

-1 

1 

+ 1 

-1 

+ 1 

-1 

4-1 

-1 

1 

-1 

+ 1 

+ 1 

-1 

-1 

+ 1 

1 

4-1 

+ 1 

+ 1 

4-1 

4-1 

+ 1 
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On pourrait rajouter une 8 eme colonne A :|: B :,: C mais le modèle est alors saturé car il y a 
autant d’essais que de paramètres à estimer et on ne pourra pas estimer la variance résiduelle. 
Notons à ce propos une confusion fréquente entretenue par les logiciels : ce qu’ils appellent 
variance résiduelle n’est autre que la somme des variances des effets considérés comme non 
significatifs. Pour véritablement estimer la variance résiduelle, il faut procéder à des essais 
supplémentaires (répétitions, points au centre). 

2/.2.2.2 Plans fractionnaires de type 2 p ~ k et plans de Plackett et Burman 

Pour 4 facteurs, le plan complet demande 16 essais. Mais puisque la colonne A*B du plan 
précédent est orthogonale à toutes les autres, on peut l’attribuer à un quatrième facteur D. On 
aura alors un plan orthogonal, donc optimal, à 8 essais au lieu de 16 (demi-fraction). 


A 

B 

C 

D 

-1 

-1 

-1 

+ 1 

+ 1 

-1 

-1 

-1 

-1 

+1 

-1 

-1 

+ 1 

+ 1 

-1 

+ 1 

-1 

-1 

+1 

+1 

+ 1 

-1 

+ 1 

-1 

-1 

+ 1 

+ 1 

-1 

+ 1 

+ 1 

+ 1 

+ 1 


On a perdu la possibilité d’estimer l’interaction A*B puisque celle ci est confondue avec 
le facteur D ; le plan est dit de résolution III. D’autres solutions sont possibles en attribuant 
D aux colonnes A :|: C ou B :1: C, la meilleure consiste à attribuer D à la colonne A*B*C car 
alors aucun effet principal n’est confondu avec une interaction entre deux facteurs mais seu¬ 
lement avec les interactions entre trois facteurs. On ne peut cependant estimer séparément 
les interactions d’ordre deux qui sont partiellement confondues entre elles ; le plan est de 
résolution IV. Le voici : 


essai. 

Tableau 21.1 

A B 

C 

D 

1 

-1 

-1 

-1 

“1 

2 

1 

-1 

-1 

1 

3 

— 1 

1 

-1 

1 

4 

1 

1 

-1 

-1 

5 

-1 

-1 

1 

1 

6 

1 

— 1 

1 

-1 

7 

-1 

1 

1 

-1 

8 

1 

1 

1 

1 
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La structure de confusion des effets ou d'alias est : 


1 

A = BCD 

2 

B = ACD 

3 

C = ABD 

4 

D = ABC 

5 

AB = CD 

6 

AC = BD 

7 

AD = BC 


Une autre façon de faire consiste à partir du plan en 32 essais et à prendre la moitié des 
essais, celle correspondant à A‘ 1: B ;[: C :|: D = 1. Le plan complémentaire ou miroir est obtenu 
en choisissant les autres essais A*B :|: C :|: D = — 1 : il donne les expériences supplémentaires 
à faire si Ton veut estimer toutes les interactions ( désaliasage) si l'analyse a montré que Ton 
ne pouvait pas négliger les interactions d'ordre 2. 

Ces procédés de construction sont simples et bien connus : ils aboutissent à des plans dont 
le nombre d’essais est une puissance de 2. 

Le plan précédent en 8 essais peut convenir jusqu’à 7 facteurs (Tableau 21.2) en utilisant 
toutes les interactions, c’est un plan orthogonal à nombre d’essais minimal : 


Tableau 21.2 


;sa i 

A 

B 

C 

D 

E 

F 

G 

1 

-1 

— 1 

-1 

1 

1 

1 

-1 

2 

1 

-1 

“1 

“1 

-i 

1 

1 

3 

-1 

1 

-1 

-1 

1 

“1 

1 

4 

1 

1 

-1 

1 

-1 

-1 

-1 

5 

-1 

-1 

1 

1 

-1 

-1 

1 

6 

1 

-1 

1 

-1 

1 

-1 

-1 

7 

-1 

1 

1 

-1 

-1 

1 

-i 

8 

1 

1 

1 

1 

1 

1 

1 


Au delà de 8 facteurs on passe donc à 16 essais minimum. Les matrices 
d’Hadamard permettent de construire des plans orthogonaux, dits de Plackett et Burman 
dont le nombre d’essais est un multiple de 4 et est donc intermédiaire entre les puissan¬ 
ces de 2. Pour 8 à 11 facteurs on pourra utiliser un plan en 12 essais tel celui donné par 
le tableau 21.3. 

La structure de confusion des effets est très complexe (Montgomery, 2005) : chaque effet 
principal du plan précédent est partiellement confondu avec les 45 interactions d'ordre 2 ne 
le comprenant pas. Plus encore que les plans 2 p ' k . ces plans doivent être utilisés avec 
précaution. 
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Tableau 21.3 


Essai 

A 

B 

C 

D 

E 

F 

G 

H 

I 

J 

K 

1 

-1 

1 

-1 

1 

1 

1 

-1 

-1 

-1 

1 

-1 

2 

-1 

~1 

1 

-1 

1 

1 

1 

-1 

-1 

-1 

1 

3 

1 

-1 

-1 

1 

-1 

1 

1 

1 

-1 

-1 

-1 

4 

~ 1 

1 

-1 

-1 

1 

-1 

1 

1 

1 

- 1 

-1 

5 

-1 

— 1 

1 

“1 

-1 

1 

-1 

1 

1 

1 

-1 

6 

-1 

-1 

-1 

1 

- 1 

~1 

1 

— 1 

1 

1 

1 

7 

1 

-1 

-1 

-1 

1 

-1 

-1 

1 

-1 

1 

1 

8 

1 

1 

-1 

-1 

-1 

1 

-X 

-1 

1 

-1 

1 

9 

1 

1 

1 

“1 

-1 

-1 

1 

-1 

-1 

1 

-1 

10 

-1 

1 

1 

1 

-1 

— 1 

-1 

1 

-1 

— 1 

1 

11 

1 

— 1 

1 

1 

1 

-1 

-1 

-1 

1 

-1 

-1 

12 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 


Plan de Plackett et Burman en 12 essais pour 

11 facteurs. 




Les plans 2 p ' k (dits de Box et Humer) et de Plackett et Burman constituent des plans de 
criblage (« screening ») essentiellement destinés à éliminer rapidement des facteurs dans une 
étude préliminaire où de nombreux facteurs potentiels ont été soupçonnés. 

2 S.2.3 Exemple 

Un plan d’expériences a été réalisé selon la matrice du tableau 21.1 (données tirées de 
Montgomery 2001 ) 


A 


B 


c 


D 


y 

-1 . 

0 

-1 

0 

- 1 . 

0 

-1 

0 

45 

1 . 

0 

-1 

0 

-1 . 

0 

1 

0 

100 

-1 . 

0 

1 

0 

- 1 . 

0 

1 

0 

45 

1 . 

0 

1 

0 

-1 . 

0 

— 1 

0 

65 

-1 . 

0 

— 1 

0 

1 . 

0 

1 

0 

75 

1 . 

0 

-1 

0 

1 . 

0 

“1 

0 

60 

-1 . 

0 

1 

0 

1 . 

0 

— 1 

0 

80 

1 . 

0 

1 

0 

1 . 

0 

1 

0 

96 


On calcule tout d’abord les effets des facteurs qui sont égaux aux différences des moyen¬ 
nes de la réponse entre le niveau +1 et le niveau -1 de chaque facteur ou interaction (tableau 
21.4 et figure 21.1). Rappelons que AB est confondue avec CD, AC avec BD et AD avec BC. 

On ne peut ici effectuer de test d’analyse de la variance car il n’y a pas assez de degrés de 
liberté pour estimer la variance résiduelle. 

Il est clair que le facteur B est sans effet ainsi que les interactions AB et CD qui peuvent 
être éliminés. On négligera également BD et BC qui ne peuvent être séparées de AC et AD en 
faisant l’hypothèse que si le facteur B n’a pas d’effet principal, on peut ne pas tenir compte 
des interactions entre B et les autres facteurs. 
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Tableau 21.4 

Effets estimés pour réponse 


moyenne 

= 

70.75 

A :Facteur_A 

= 

19.0 

B : Facteur__B 

= 

1.5 

C : Facteur_C 

= 

14.0 

D :Facteur_D 

— 

16.5 

AB T CD 

= 

-1.0 

AC + BD 

= 

-18.5 

AD + BC 

= 

19.0 


Graphique de Pareto 



Figure 21.1 


Tableau 21.5 

Analyse de la variance pour y 


Source 

Somme des 
carrés 

DDL 

Carré moyen 

F Proba. 

A :Facteur_A 

722.0 

1 

722.0 


B :Facteur_B 

4.5 

1 

4.5 


C :Facteur_C 

392.0 

1 

392.0 


D :Facteur_D 

544.5 

1 

544.5 


AB + CD 

2.0 

1 

2.0 


AC + BD 

684.5 

1 

684.5 


AD + BC 

722.0 

1 

722.0 


Erreur totale 

0.0 

0 



Total (corr.) 

3071.5 

7 




On réestime alors le modèle simplifié, écrit symboliquement Y = I + A+ C + Df AC 4- AD. 
Tous les effets sont significatifs. L'orthogonalité laisse invariantes les sommes de carrés. L‘ « erreur 
totale » est en fait la somme des carrés négligés. 
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Tableau 21.6 


Analyse de la 

variance pou: 

r y 




Source 

Somme des 

carrés 

DDL 

carré moyen 

F 

Proba. 

A :Facteur_A 

722.0 

1 

722.0 

222.15 

0.0045 

C :Facteur_C 

392.0 

1 

3 92.0 

120.62 

0.0082 

D :Facteur_D 

544.5 

1 

544.5 

167.54 

0.0059 

AC 

684.5 

1 

684.5 

210.62 

0.0047 

AD 

722.0 

1 

722.0 

222.15 

0.0045 

Erreur totale 

6.5 

2 

3.25 



Total (corr.) 

3071.5 

7 





Le modèle de régression final s’écrit : 

y = 70.75 +9.5 A + 7.OC + 8.25D-9.25AC + 9.5AD 


21.3 QUELQUES PLANS POUR SURFACES DE RÉPONSE 
DU SECOND DEGRÉ 

11 s’agit de trouver des matrices d’essais pour des modèles linéaires avec des termes de 
degré 2 comme celui-ci : y = (3 0 + f3,.v l + p 3 -V 2 + p 3 (.v')“ + [3 4 (.v 2 ) 2 + Pj.y'a 2 + e. 

11 faut donner à chaque facteur au moins trois niveaux pour pouvoir estimer les effets du 
second degré. Lorsque le domaine expérimental est cubique, ces trois niveaux seront définis par 
les extrêmes et le milieu de l’intervalle de variation de chaque facteur et recodés en — 1, 0. I 

min max) 

X - 

2 

après la transformation déjà vue plus haut-. 

in;ix min 
2 

Il ne peut exister de plans orthogonaux pour de tels modèles et la recherche s’est focalisée 
sur des plans possédant d’autres propriétés comme l’isovariance par rotation. La possibilité 
d’expérimentation séquentielle est également très utile ; elle consiste à augmenter un plan 
factoriel fractionnaire de criblage permettant d’estimer des effets principaux en lui ajoutant 
des points au centre et d’autres points pour estimer les autres effets. 

11 existe bien d’autres plans que ceux présentés maintenant parmi les plus classiques, et 
nous renvoyons aux ouvrages déjà cités. L’analyse des résultats d’expérience se fait avec la 
régression linéaire multiple. 

2L3.I Plans composites à faces centrées 

Ce nom s’explique de la manière suivante. Pour 3 facteurs le domaine expérimental est un 
cube. On effectue tout d’abord les 8 essais aux sommets du cube, que l’on complète par 6 
essais aux centres des faces, et essais au centre du cube. 
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Voici la matrice d’expériences pour n c = 2 : 


Tableau 21.7 


essai 

A 


B 


c 


1 

-1 

, 0 

“1 

. 0 

-1 

. 0 

2 

1 

. 0 

-1 

. 0 

— ± 

. 0 

3 

— 1 

.0 

1 

. 0 

-1 

, 0 

4 

1 

. 0 

1 

.0 

-1 

. 0 

5 

-1 

. 0 

“1 

. 0 

1 

. 0 

6 

1 

, 0 

-1 

, 0 

1 

. 0 

7 

-1 

. 0 

1 

. 0 

1 

. 0 

8 

1 

. 0 

1 

, 0 

1 

. 0 

9 

— 1 

. 0 

0 

. 0 

0 

.0 

10 

1 

. 0 

0 

. 0 

0 

. 0 

11 

0 

. 0 

-1 

. 0 

0 

.0 

12 

0 

. 0 

1 

.0 

0 

.0 

13 

0 

. 0 

0 

. 0 

-1 

. 0 

14 

0 

. 0 

0 

, 0 

1 

. 0 

15 

0 

. 0 

0 

. 0 

0 

. 0 

16 

0 

. 0 

0 

. 0 

0 

. 0 


Plan composite à faces centrées pour 3 facteurs 



Ce plan n’est pas orthogonal (il ne peut pas l’être) : voici la matrice de corrélation entre 
les colonnes de X : 



a 

B 

c 

A 2 

AB 

AC 

B 2 

BC 

c 2 

A 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

B 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

c 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

A 2 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.4667 

0.0000 

0.4667 

AB 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

AC 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

B 1 ' 

0.0000 

0.0000 

0.0000 

0.4667 

0.0000 

0.0000 

1.0000 

0.0000 

0.4 667 

BC 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

c 2 

0.0000 

0.0000 

0.0000 

0.4667 

0.0000 

0.0000 

0.4667 

0.0000 

1.0000 
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II n’est pas - non plus isovariant par rotation. Ces plans se généralisent à un nombre quel¬ 
conque de facteurs. L’hypercube a 2 r sommets et 2 p faces. La partie factorielle peut-être 
une fraction orthogonale et non le plan complet. Le plan minimal pour 5 facteurs compren¬ 
dra en tout 28 essais avec 2 points au centre, en partant d’un plan 2 ?_l et laissera 7 degrés 
de liberté. 


21.3.2 Plans composites généraux 

Au lieu de mettre les points en « étoile » au centre des faces, ils sont à une distance a du 
centre. Ce qui donne le plan suivant pour 3 facteurs et 2 points au centre. Il y a donc 5 niveaux 
par facteur. 


essai 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 


- 1.0 

1.0 

- 1.0 

1.0 

-1 . 0 

1 . 0 
- 1.0 
1.0 

—a 

a 

0.0 
0.0 
0.0 
0.0 


- 1.0 

- 1.0 

- 1.0 
- 1.0 
1.0 
1 . 0 
1 . 0 
1 . 0 

0.0 
0.0 
0.0 
0.0 
— a 
a 


Tableau 21.8 

A B C 

- 1.0 

- 1.0 
1.0 
1 . 0 
- 1.0 
-1 . 0 
1.0 
1.0 

0.0 
0.0 
—a 
a 

0.0 
0.0 


15 0.0 0.0 0.0 

16 0.0 0.0 0.0 


Plan composite centré pour 3 facteurs 



Figure 21.3 
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On montre que pour obtenir l’isovariance, il faut prendre a. — ( nf) VA ou n, est le nombre 
d’essais de la partie factorielle. Pour 3 facteurs a = 8 0,25 = 1.6818 et pour 2 facteurs 
a = 4 0 25 = 2 0 -'’ = 1.414. Les points sont alors respectivement sur une sphère ou un cercle. 
Ces plans conviennent donc bien quand le domaine expérimental est sphérique. 

2S.3.3 Plans de Box-Behnken 

Ce sont des plans où les facteurs ne prennent que les niveaux —1.0. 1. Pour p = 3 les essais 
hors du centre sont disposés au milieu des arêtes du cube (figure 21.4), pour p > 3 au milieu des 
hyperfaces de dimension p-1 . Ces plans demandent souvent moins d’essais que les composites. 
Tous les points (hors ceux au centre) sont situés sur une sphère de carré de rayon égal à 2 si p = 
3, 4 ou 5, de carré de rayon égal à 3 pour p — 6 ou 7. Ils ne contiennent aucun sommet ce qui 
peut-être un intérêt si les sommets correspondent à des expériences difficiles à réaliser. 

Le plus utilisé est celui pour 3 facteurs donné par le tableau 21.9.11 n’est pas isovariant 
par rotation. La matrice de corrélation entre effets (tableau 21.10) montre une nette supério¬ 
rité sur le plan composite à faces centrées étudié plus haut. 


Tableau 2 L 9 


essai A 


1 - 1.0 

2 1.0 

3 - 1.0 

4 1.0 

5 -1.0 

6 1.0 

7 - 1.0 

8 1.0 

9 0.0 

10 0.0 

11 0.0 

12 0.0 

13 0.0 

14 0.0 

15 0.0 


B C 

- 1.0 0.0 

- 1.0 0.0 

1.0 0.0 

1.0 0.0 

0.0 - 1.0 

0.0 -l.o 

0.0 1.0 

0.0 1.0 

- 1.0 - 1.0 

1.0 - 1.0 

- 1.0 1.0 

1.0 1.0 

0.0 0.0 

0.0 0.0 

0.0 0.0 


Plan de Box-Behnken pour 3 facteurs 



Figure 21.4 
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B 

c 

Tableau 21 . 

A 2 AB 

.10 

AC 


BC 

c 2 

A 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

B 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

C 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

À ' 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

- 0.0714 

0.0000 

- 0.0714 

AB 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

0.0000 

AC 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

0.0000 

0.0000 

B 2 

0.0000 

0.0000 

0.0000 

- 0.0714 

0.0000 

0.0000 

1.0000 

0.0000 

- 0.0714 

BC 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

0.0000 

1.0000 

0.0000 

C 2 

0.0000 

0.0000 

0.0000 

- 0.0714 

0.0000 

0.0000 

- 0.0714 

0.0000 

1.0000 


Matrice des corrélations entre effets du Plan de Box-Behnken 


Le tableau 21.11 est un plan de Box-Behnken pour 4 facteurs en 27 essais dont 3 au centre. 
Ce plan est isovariant par rotation. 


Tableau 21.11 


essai 

A 


B 


c 


D 


1 

-1 . 

, 0 

-1 . 

.0 

0 

. 0 

0 . 

, 0 

2 

1 . 

. 0 

-1 . 

, 0 

0 

, 0 

0 . 

, 0 

3 

-1 , 

. 0 

1 . 

, 0 

0 

. 0 

0 . 

, 0 

4 

1 . 

. 0 

1 . 

, 0 

0 

. 0 

0 . 

. 0 

5 

0 . 

. 0 

0 . 

.0 

-1 

, 0 

-1 . 

, 0 

6 

0 . 

. 0 

0 . 

. 0 

1 

. 0 

-1 . 

, 0 

7 

0 , 

. 0 

0 . 

. 0 

1 

.0 

1 . 

.0 

8 

0 . 

. 0 

0 . 

. 0 

1 

. 0 

1 . 

, 0 

9 

— 1 . 

. 0 

0 . 

. 0 

0 

. 0 

-1 . 

. 0 

10 

1 , 

.0 

0 . 

.0 

0 

. 0 

-1 . 

. 0 

11 

“1 , 

.0 

0 . 

. 0 

0 

, 0 

1 . 

. 0 

12 

1 . 

. 0 

0 . 

.0 

0 

. 0 

1 , 

,0 

13 

0 . 

. 0 

-1 . 

. 0 

-1 

. 0 

0 . 

. 0 

14 

0 , 

, 0 

1 . 

. 0 

-1 

. 0 

0 . 

.0 

15 

0 , 

. 0 

“1 . 

. 0 

1 

. 0 

0 . 

. 0 

16 

0 , 

. 0 

1 . 

. 0 

1 

. 0 

0 , 

. 0 

17 

-1 . 

. 0 

0 . 

. 0 

-1 

. 0 

0 . 

. 0 

18 

1 

.0 

0 . 

. 0 

-1 

. 0 

0 . 

. 0 

19 

-1 . 

.0 

0 , 

. 0 

1 

. 0 

0 , 

. 0 

20 

1 , 

.0 

0 , 

.0 

1 

. 0 

0 

. 0 

21 

0 

.0 

-1 . 

. 0 

0 

. 0 

-1 , 

. 0 

22 

0 

.0 

1 . 

. 0 

0 

. 0 

-1 

. 0 

23 

0 , 

.0 

-1 , 

.0 

0 

. 0 

1 

.0 

24 

0 . 

. 0 

1 . 

.0 

0 

. 0 

1 

.0 

25 

0 , 

. 0 

0 . 

. 0 

0 

. 0 

0 

. 0 

26 

0 , 

.0 

0 , 

. 0 

0 

. 0 

0 

.0 

27 

0 

.0 

0 , 

. 0 

0 

. 0 

0 

. 0 


Plan de Box-Behnken pour 4 facteurs 
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21.3.4 Application à un problème d’optimisation 

Les données sont reprises de Montgomery (2001 page 503) avec le plan de Box-Behnken 
du tableau 21.9. 

Y' = (535 580 596 563 645 458 350 600 595 648 532 656 653 599 620) 


Analyse de la variance pour y 


Source 


Somme des 
carrés 

DDL 

Carré moyen. 

F 

Proba. 

A : Facteur__A 

703.125 

1 

703.125 

0.67 

0.4491 

B : Facteur_B 

6105.13 

1 

6105.13 

5.85 

0.0602 

C :Facteur_C 

5408.0 

1 

5408.0 

5.18 

0.0719 

AA 


20769.2 

1 

20769.2 

19.90 

0.0066 

AB 


1521.0 

1 

1521.0 

1.46 

0.2814 

AC 


47742.3 

1 

47742.3 

45.74 

0.0011 

BB 


1404.0 

1 

1404.0 

1.35 

0.2985 

BC 


1260.25 

1 

1260.25 

1.21 

0.3219 

CC 


4719.0 

1 

4719.0 

4.52 

0.0868 

Erreur 

totale 

5218.75 

5 

1043.75 



Total 

(corr.) 

94871.3 

14 





L’analyse de la variance et le graphe des effets indiquent que l’on peut éliminer le 
terme du premier degré en A, celui du deuxième degré en B ainsi que les produits AB et 


BC. 


Graphique de Pareto standardisé pour y 


AC 
AA 

B:Facteur_B 
C:Facteur_C 
CC 
AB 
BB 
BC 

A: Facteur. A 

0 2 4 6 8 

Effet standardisé 

Figure 2L5 









ü 



8 




■ 1 


■ . ■ 1 



Le modèle restreint est significatif et s’écrit : 

y = 636.0 + 27.625B - 26.0C -76.5A 2 + 109.25AC - 37.25C 2 
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Analyse de la variance pour y 
Somme des 


Source 

carrés 

DDL 

Carré moyen. 

F 

Proba. 

B : Facteur_B 

6105.13 

1 

6105.13 

5.44 

0.0446 

C : Facteur_C 

5408.0 

1 

5408.0 

4.82 

0.0558 

AA 

21736.9 

1 

21736.9 

19.36 

0.0017 

AC 

47742.3 

1 

47742.3 

42.51 

0.0001 

cc 

5153.8 

1 

5153.8 

4.59 

0.0608 

Erreur totale 

10107.1 

9 

1123.01 



Total (corr.) 

94871.3 

14 





Surface de réponse estimée 
FacteurJ3 = 1.0 



La figure 21.6 représente pour B fixé au niveau 1 la surface de réponse de y selon A et C. 
Si l'on cherche à maximiser la réponse, compte tenu des contraintes du domaine l’optimum 
est atteint pour A — —0.71, B = 1 et C = — 1 et vaut environ 691. 

2I A PLANS POUR FACTEURS QUALITATIFS 

Notons nij le nombre de modalités du facteur n °j. Bien que non ordonnées ces modalités 
seront encore appelées « niveaux ». Leur numérotation est donc arbitraire et les niveaux 
seront notés tantôt par les entiers 1,2,..., nij , tantôt par des symboles A I , A2, . . . A tltJ . 

2 S A. \ Orthogonalités 

Comme précédemment, l’orthogonalité est une propriété souvent recherchée. 
L'orthogonalité d’un plan pour un modèle donné se traduit par une analyse de variance ortho¬ 
gonale : les sommes de carrés des différents effets sont additives. 
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Une condition suffisante d’orthogonalité pour le modèle à effets principaux sans intérac- 
don est que le plan soit équilibré au sens suivant : pour toute paire de facteurs / et j les mpiy 
traitements sont présents le même nombre de fois. On parle également d’orthogonalité au 
sens strict ; elle entraîne la D-optimalité. Cela implique que le nombre d’essais soit un mul¬ 
tiple de mqiij. Toutes les cases du tableau croisé à lignes et m j colonnes de dénombrement 
des essais ont le même effectif. 

Il y a orthogonalité au sens large si les effectifs ne sont pas identiques (plan non équili¬ 
bré) mais si le khi-deux calculé sur ce tableau est nul. L’analyse de la variance a les mêmes 
propriétés que pour l’orthogonalité stricte mais le plan n’est pas nécessairement D-opdmal. 

21.4.2 Facteurs à m niveaux 

Si tous les facteurs ont le même nombre de niveaux ni, le plan complet nécessite nf expé¬ 
riences. Nous nous intéresserons ici aux plans nécessitant moins d’observations. 

Si ni = 2, on peut utiliser les mêmes plans que dans le cas quantitatif : factoriels fraction¬ 
naires, Plackett et Burman. La seule différence est que les niveaux « bas » et « haut » n’ont 
pas de sens et que la modélisation ne s’exprimera pas à l’aide d’une régression linéaire 
classique mais plutôt symboliquement comme suit : 



On ajoute P, si le facteur j est au niveau 1 et - (3 ; s’il est au niveau 2. 

Pour 3 et 4 facteurs on utilisera les carrés latins et gréco-latins, au delà on se reportera à 
des recueils de table (par exemple celles de Benoist & al. 1994), ou on les construira par des 
procédés algorithmiques 

21.4.2.1 Carrés latins 

Pour p — 3 et ni quelconque, les plans en carrés latins sont des plans orthogonaux au sens 
strict en nr essais au lieu de n?. On peut les obtenir de la manière suivante, d'où leur nom : 

On constitue un carré en croisant 2 des 3 facteurs, et on affecte à chaque case les niveaux 
du 3 ème facteur par permutations circulaires de la première ligne. Chaque niveau de chaque 
facteur est associé une fois et une seule à chaque niveau d’un des deux autres. Voici le carré 
latin pour 3 facteurs à 4 niveaux qui comprend 16 essais noté parfois L| 6 4 3 . Le premier essai 
est Al B1 Cl etc. 



B1 

B2 

B3 

B4 

Al 

Cl 

C2 

C3 

C4 

A2 

C2 

C3 

C4 

Cl 

A3 

C3 

C4 

Cl 

C2 

A4 

C4 

Cl 

C2 

C3 



540 


27i®aPlans d’expériences 


La matrice des essais de ce plan en notations classiques est : 


essai 

A 

B 

C 

1 

1 

1 

1 

2 

1 

2 

2 

3 

1 

3 

3 

4 

1 

4 

4 

5 

2 

1 

2 

6 

2 

2 

3 

7 

2 

3 

4 

8 

2 

4 

1 

9 

3 

1 

3 

10 

3 

2 

4 

11 

3 

3 

1 

12 

3 

4 

2 

13 

4 

1 

4 

14 

4 

2 

1 

15 

4 

3 

2 

16 

4 

4 

3 


Les carrés latins ne peuvent estimer que les effets principaux. Dans l’analyse de variance 
le nombre de degrés de liberté pour l’erreur vaut nr — 1 — 3(ni — 1) = (m - 1) (m - 2). 
Il y a en effet (ni - 1) paramètres à estimer pour chaque facteur plus le terme constant. 


21.4.2.2 Carrés gréco-latins 

Ce sont des plans pour 4 facteurs à m niveaux. On peut les construire en super¬ 
posant deux carrés latins. Ils existent pour tout m > 2 sauf pour m = 6 . Les plans en 
carrés gréco-latins sont des plans orthogonaux au sens strict en nr essais au lieu de //ri. 

Voici le carré gréco-latin L 16 4 4 sous sa forme originelle et sous forme de matrice 
d’expérience : 



B1 

B2 

B3 

B4 

Al 

Cl a 

C2 (3 

C3 7 

C4 8 

A2 

C2 y 

Cl 5 

C4 a 

C3 (3 

A3 

C3 8 

C4 7 

Cl [3 

C2 a 

A4 

C4 (3 

C3 a 

C2 5 

Cl 7 


Comme pour les carrés latins, on ne peut estimer que les effets principaux ; dans l’analyse 
de variance le nombre de degrés de liberté pour l’erreur vaut (in — l) (m — 3). 
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essai 

A 

B 

C 

D 


1 

1 

1 

1 

1 


2 

1 

2 

2 

2 


3 

1 

3 

3 

3 


4 

1 

4 

4 

4 


5 

2 

1 

3 

3 


6 

2 

2 

4 

4 


7 

n 

3 

1 

1 


8 

2 

4 

2 

2 


9 

3 

1 

4 

4 


10 

3 

2 

3 

3 


11 

3 

3 

2 

2 


12 

3 

4 

1 

1 


13 

4 

1 

2 

2 


14 

4 

2 

1 

1 


15 

4 

3 

4 

4 


16 

4 

4 

3 

3 



21.4.3 Plans asymétriques 

On désigne ainsi les plans avec des facteurs n’ayant pas tous le même nombre de niveaux. 
La construction de plans fractionnaires est difficile et il n'existe pas de méthode générale. 
Voici tout d’abord quelques indications concernant le nombre d’essais : 

n 

11 doit être au minimum égal au nombre de paramètres a estimer n > 2 ( m j ~ 1 ) + 1 et 

j-1 

pour avoir un plan orthogonal au sens strict (sans interaction) être un multiple commun de 
tous les produits Cela donne quelques possibilités, mais il n’est pas certain qu'un tel 
plan existe en dehors du plan complet. 

On peut alors consulter des recueils de tables, mais ils ne sont pas exhaustifs, ou utiliser 
une des méthodes suivantes : fusion ou compression en partant d’autres plans. 

En voici deux exemples simples : 

21.4.3.1 Un exemple de fusion 

On cherche un plan pour 3 facteurs, l’un à 4 niveaux, les deux autres à 2 niveaux. Le plan 
complet comporte 16 essais. Le ppcm des produits mpy vaut 8. On trouve le plan de la maniè¬ 
re suivante : on part de 4 facteurs à deux niveaux et du plan fractionnaire 2 4_l du tableau 21.1 : 


essai 

A 

B 

C 

D 

1 

“1 

-1 

-1 

-1 

2 

1 

-1 

— 1 

1 

3 

-1 

1 

— 1 

1 

4 

1 

1 

-1 

-1 

5 

“1 

-1 

1 

1 

6 

1 

-1 

1 

-1 

7 

— 1 

1 

1 

-1 

8 

1 

1 

1 

1 





542 


27™Plans d'expériences 


En combinant deux facteurs à 2 niveaux on en obtient un à 4 niveaux. On remplace par 
exemple les colonnes C et D de la façon suivante (“1 ; — 1 ) devient le niveau 1 d'un facteur 
E, (— 1, 1) le niveau 2, (f ; -1) le niveau 3 et (l ; l) le niveau 4. Le plan résultant est stric¬ 
tement orthogonal et permet d’estimer les effets principaux. 


essai 

A 

B 

E 

1 

-1 

-1 

1 

2 

1 

-1 

2 

3 

-1 

1 

2 

4 

1 

1 

1 

5 

-1 

-1 

4 

6 

1 

-1 

3 

7 

-1 

1 

3 

8 

1 

1 

4 


21.4.3.2 Un exemple de compression 

Cette technique consiste a regrouper des niveaux d’un facteur (« collapsing » en anglais). 

Cherchons un plan pour 3 facteurs : A et B à 3 niveaux et C à deux niveaux. Le 
plan complet demande 12 essais, mais seuls les effets principaux sont à estimer. Le ppcm 
de 6 et 4 est également 12, donc le plan complet est le seul plan orthogonal au sens strict. 
Si le facteur C avait eu 3 niveaux, on aurait pu utiliser un carré latin 3 ? comme celui-ci : 



B1 

B2 

B3 

Al 

Cl 

C2 

C3 

A2 

C2 

C3 

Cl 

A3 

C3 

Cl 

C2 


Il suffit alors de regrouper deux des 3 niveaux de C ; par exemple C3 et C2. On obtient 
un plan orthogonal, mais cette fois-ci au sens large puisque non équilibré. 



B1 


B2 


B3 


Al 

Cl 


C2 


C2 


A2 

C2 


C2 


Cl 


A3 

C2 


Cl 


C2 


essai 

A 


B 


C 

1 


1 


1 


1 

2 


1 


2 


2 

3 


1 


3 


2 

4 


2 


1 


2 

5 


2 


2 


2 

6 


2 


3 


1 

7 


3 


1 


2 

8 


3 


2 


1 

9 


3 


3 


2 
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2S .5 CONSTRUCTION ALGORITHMIQUE 
DE PLANS OPTIMAUX 

Il n'est pas toujours possible de construire « à la main » un plan d’expériences, soit parce 
que le domaine expérimental est irrégulier, ou qu’il est impossible de trouver un plan ortho¬ 
gonal par les méthodes exposées précédemment (il n’y en a pas ou on ne sait pas le trouver), 
ou encore parce que le nombre d’essais est limité. 

On utlisera alors des logiciels, maintenant assez répandus, pour trouver un plan optimal, 
en général D-optimal. On se donne un ensemble de N points candidats ou essais potentiels 
parcourant le domaine expérimental, parmi lesquels on va chercher un sous-ensemble de n 
essais (avec répétitions ou non). En l’absence de contraintes sur le domaine. N correspond 
au nombre d’essais du plan complet. Comme il est irréalisable d’explorer tous les choix de 
n parmi N , on utilise des algorithmes d’optimisation basés pour les plus connus sur des 
échanges : on part d’un plan, souvent choisi aléatoirement, que l’on améliore en échangeant 
un essai du plan contre un autre non choisi. Ces algorithmes ne convergent pas nécessaire¬ 
ment vers l’optimum du critère et il est conseillé de les relancer plusieurs fois en faisant 
varier les initialisations. 

S’il existe un plein orthogonal pour la valeur fixée de n et si l'algorithme converge, alors 

11 découvrira ce plan. Sinon on trouvera un plan de bonne qualité. 

Exemple : On a 4 facteurs A, B, C, D à 3, 4, 2, 2 niveaux respectivement. On ne 
s'intéresse qu’aux effets principaux. Le plan complet possède 48 essais. Il existe un plan 
orthogonal au sens strict en 24 essais mais il est trop onéreux et on veut se contenter de 

12 essais ce qui laissera encore 4 degrés de liberté pour l’erreur résiduelle. En 10 itéra¬ 
tions on aboutit au plan suivant : 


Essai A B 


13 4 

2 3 3 

3 3 2 

4 3 1 

5 2 4 

S 2 3 

7 2 2 

8 2 1 

9 14 

10 1 3 

11 1 2 

12 1 1 


C D 

2 2 

2 1 

1 2 

1 1 

2 1 

1 1 

1 2 

2 2 

1 2 

2 2 

2 1 

1 1 


Il y a orthogonalité entre A et B, A et C, A et D. C et D mais pas entre B et C. ni entre 
B et D. 
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IX'XI 1 ^ 

L’elficacité d’un plan D-optimal est souvent mesurée par la quantité -—1 que l’on 

interprète comme le rapport entre le nombre hypothétique d’essais d’un plan orthogonal qui 
aurait même déterminant et le nombre d’essais du plan. En effet on sait que pour un plan 
orthogonal X X est diagonale de termes tous égaux à l'effectif du plan. La D-efficacilé vaut 
ici 97.0984 %. 

On peut également « forcer » certains essais (que l’on veut faire, ou qui ont déjà été réali¬ 
sés) et optimiser sur les essais restant à faire. Les algorithmes de plans D-optimaux constituent 
une solution pratique, mais ne sont pas une panacée : la solution optimale peut être instable, 
certains essais trop complexes, l’optimum du déterminant ne correspond pas forcément au 
critère recherché ... 
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Table A. 1 Nombres au hasard 



5 

10 

15 

20 

25 

30 

35 

40 

45 

50 


13407 

62899 

78937 

90525 

25033 

56358 

78902 

47008 

72488 

57949 


50230 

63237 

94083 

93634 

71652 

02656 

57532 

60307 

91619 

48916 


84980 

62458 

09703 

78397 

66179 

46982 

67619 

39254 

90763 

74056 


22116 

33646 

17545 

31321 

65772 

86506 

09811 

82848 

92211 

51178 

5 

68645 

15068 

56898 

87021 

401 15 

27524 

42221 

88293 

67592 

06430 


26518 

39122 

96561 

56004 

50260 

68648 

85596 

83979 

09041 

62350 


36493 

41666 

27871 

71329 

69212 

57932 

65281 

57233 

07732 

58439 


77402 

12994 

59892 

85581 

70823 

53338 

34405 

67080 

16568 

00854 


83679 

97154 

40341 

84741 

08967 

73287 

94952 

59008 

95774 

44927 

10 

71802 

39356 

02981 

89107 

79788 

51330 

37129 

31898 

34011 

43304 


57494 

72484 

22676 

44311 

15356 

05348 

03582 

66183 

68392 

86844 


73364 

38416 

93128 

10297 

11419 

82937 

84389 

88273 

96010 

09843 


14499 

83965 

75403 

IS002 

45068 

54257 

18085 

92625 

60911 

39137 


40747 

03084 

07734 

88940 

88722 

85717 

73810 

79866 

84853 

68647 

15 

42237 

59122 

92855 

62097 

81276 

06318 

81607 

00565 

56626 

77422 


32934 

60227 

58707 

44858 

36081 

79981 

01291 

68707 

45427 

82145 


05764 

14284 

73069 

80830 

17231 

42936 

48472 

18782 

51646 

37564 


32706 

94879 

93188 

66049 

25988 

46656 

35365 

13800 

83745 

40141 


22190 

27559 

95668 

53261 

21676 

98943 

43618 

42110 

93402 

93997 

20 

81616 

15641 

94921 

95970 

63506 

22007 

29966 

38144 

62556 

07864 


26099 

65801 

69870 

84446 

58248 

21282 

5693S 

54729 

67757 

68412 


71874 

61692 

80001 

21430 

02305 

59741 

34262 

15157 

27545 

14522 


08774 

296S9 

42245 

51903 

69179 

96682 

91819 

60812 

47631 

50609 


37294 

92028 

56850 

83380 

05912 

29830 

37612 

15593 

73198 

99287 

25 

33912 

37996 

78967 

57201 

66916 

73998 

54289 

07147 

84313 

51938 


63610 

61475 

26980 

23804 

54972 

7206S 

19403 

53756 

04281 

98022 


01570 

41701 

30282 

54647 

06077 

29354 

95704 

75928 

21811 

88274 


24159 

77787 

38973 

82178 

46802 

90245 

01805 

23906 

96559 

06785 


92834 

52941 

88301 

22127 

23459 

40229 

74678 

21859 

98645 

72388 

30 

16178 

60063 

59284 

16279 

48003 

44634 

08623 

32752 

40742 

05470 


81808 

32980 

80660 

98391 

62243 

19678 

39551 

18398 

36918 

43543 


28628 

82072 

04854 

52809 

86608 

68017 

11120 

28638 

72850 

03650 


62249 

65757 

12273 

91261 

96983 

15082 

83851 

77682 

81728 

52157 


84541 

99S91 

01585 

96711 

29712 

02877 

70955 

59693 

26838 

96011 

35 

89052 

39061 

99811 

69831 

47234 

93263 

47386 

17462 

18874 

74210 



Table A 


Fonction de réparti tî 


Taille de 
l’échantillon 

k 

p = 1 % 

p = 2 <7r' 

p = 3 % 

p=47r 

p = 5 % 

p = 6 % 

N = 5 

0 

1 

2 

3 

4 

5 

0,9510 

0,9980 

1 

0,9039 

0,9962 

1 

0,8587 

0,9915 

0,9997 

1 

0,8153 

0,9852 

0,9994 

1 

0,7738 

0.9774 

0,9988 

1 

0,7339 

0,9681 

0,9980 

1 

N = 10 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

0,9044 

0,9957 

0,9999 

1 

0,8171 

0,9838 

0,9991 

1 

0.7374 

0,9655 

0,9972 

0,9999 

1 

0,6648 

0,9418 

0,9938 

0,9996 

1 

0,5987 

0,9139 

0,9885 

0,9990 

0,9999 

1 

0,5386 

0,8824 

0.9812 

0,9980 

0,9998 

1 

N = 15 

0 

! 

2 

3 

4 

5 

6 

7 

H 

9 

10 

1 ! 
12 

13 

14 

15 

0,8601 

0,9904 

0.9996 

1 

0,7386 

0,9647 

0,9970 

0,9998 

1 

0,6333 

0,9270 

0,9906 

0,9992 

0.9999 

1 

0,5421 

0,8809 

0,9797 

0.9976 

0,9998 

1 

0,4633 

0,8290 

0,9638 

0,9945 

0,9994 

1 

0,3953 

0,7738 

0,9429 

0,9896 

0,9986 

0,9999 

1 


■ 


,2 Loi binomiale 



p - 7 % 

/; = 8 % 

P = 9 % 

m 


1 ' 



0,6957 

0,6591 

0,6240 

0,5905 

0,3277 

0,1681 

0,0778 

0,0313 


0,9466 

0,9326 

0,9185 

0,7373 

0,5282 

0,3370 

0,1875 

■«Spil 

H 

0,9937 

0,9914 

0,9421 

0,8369 

0,6826 

0.5000 



0,9997 

0,9995 

0,9933 

0,9692 

0,9130 

0,8125 


■ 

1 

1 

0,9997 

1 

0,9976 

1 

0,9898 

1 

0,9687 

1 

0,4840 

0,4344 

0,3894 

0,3487 

0,1074 

0,0282 

0.0060 

0.0010 

0.8483 

0,8121 

0,7746 

0,7361 

0,3758 

0,1493 

0,0464 

0,0107 

0.9717 

0,9599 

0,9460 

0,9298 

0,6778 

0,3828 

0,1673 

0,0547 

0.9964 

0,9942 

0,9912 

0,9872 

0,8791 

0,6496 

0,3823 

0,1719 

0,9997 

0,9994 

0,9990 

0,9984 

0,9672 

0,8497 

0,6331 

0.3770 

1 

1 

0,9999 

0,9999 

0,9936 

0,9527 

0,8338 

0,6230 



1 ! 

1 

0,9991 

0,9894 

0,9452 

0.8281 





0,9999 

0,9984 

0.9877 

0.9453 





1 

0.9999 

0.9983 

0,9893 






1 

0,9999 

1 

0,9990 

1 

0.3367 

0,2863 

0,2430 

0,2059 

0,0352 

0,0047 

0,0005 

0,0000 

0,7168 

0,6597 

0,6035 

0,5490 

0,1671 

0.0353 

0.0052 

0,0005 

0,9171 

0,8870 

0,8531 

0,8159 

0,3980 

0,1268 

0,0271 

0,0037 

0,9825 

0,9727 

0,9601 

0.9445 

0,6482 

0,2969 

0,0905 

0,0176 

0,9972 

0,9950 

0,9918 

0,9873 

0,8358 

0,5155 

0,2173 

0,0592 

0,9997 

0,9993 

0,9987 

0,9978 

0,9389 

0.7216 

0,4032 

0,1509 

1 

0,9999 

0,9999 

0,9997 

0,9819 

0.8689 

0.6098 

0.3036 


1 

1 

1 

0.9958 

0,9500 

0.7869 

0,5000 





0,9992 

0,9848 

0.9050 

0.6964 





0,9999 

0,9963 

0,9662 

0,8491 





1 

0,9993 

0,9907 

0,9408 






0.9999 

0,9981 

0,9824 






1 

0,9997 

1 

0,9963 

0.9995 

1 






































Table A. 2 (suite) Loi binomiale 

k- 

Fonction de répurLïLion P k — y,C k p k (\ — p)"~ k 

i) 


Taille de 
l'échantillon 

k 

p = l % 

p = 2 9r 

p = 3 % 

p = 4 % 

p = 5 % 

p = 6 % 

11 

p — 8 % 

p — 9 % 

p = 10 % 

B 



p = 50 % 

N = 30 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

h 

12 

13 

14 

15 

16 

17 

18 

19 

20 
2L 
22 

23 

24 

25 

26 

27 

28 

29 

30 

0,7397 

0,9639 

0,9967 

0,9998 

0,9999 

I 

0,5455 
0,8794 
0.9783 
0,9971 
0,9996 

1 

0,4010 
0,7731 
0.9399 
0,9881 
0,9982 
0,9997 

1 

0,2939 

0,6612 

0,8831 

0,9694 

0,9937 

0,9989 

0,9999 

1 

0,2146 

0,5535 

0,8122 

0,9392 

0,9844 

0,9967 

0,9994 

0,9999 

1 

0,1563 

0,4555 

0,7324 

0,8974 

0.9685 

0,9921 

0,9983 

0,9997 

0,9999 

1 

0,1134 

0,3694 

0,6488 

0,8450 

0,9447 

0,9838 

0,9960 

0,9992 

0,9999 

1 

0,0820 

0.2958 

0,5654 

0,7842 

0,9126 

0,9707 

0,9918 

0,9980 

0,9996 

0.9999 

1 

0,0591 

0,2343 

0,4855 

0,7175 

0,8723 

0,9519 

0,9848 

0,9959 

0,9990 

0,9998 

1 

0.0424 
0,1837 
0,4114 
0,6474 
0,8245 
0,9268 
0,9742 
0,9922 
0,9980 
0,9995 
0,9999 

1 

0,0012 

0,0105 

0,0442 

0,1227 

0,2552 

0,4275 

0,6070 

0,7608 

0,8713 

0,9389 

0,9744 

0,9905 

0,9969 

0,9991 

0.9998 

1 

0,0000 
0,0003 
0,0021 
0,0093 
0,0302 
0,0766 
0,1595 
0,2814 
0,4315 
0,5888 
0,7304 
0,8407 
0.9155 
0.9599 
0,9831 
0,9936 
0,9979 
0,9994 
0,9998 

1 

0,0000 

0,0003 

0,0015 

0,0057 

0,0172 

0,0435 

0,0940 

0,1763 

0,2915 

0,4311 

0,5785 

0,7145 

0,8246 

0,9029 

0,9519 

0,9798 

0,9917 

0,9971 

0,9991 

0,9998 

1 

0.0000 

0,0002 

0,0007 

0,0026 

0,0081 

0,0214 

0,0494 

0,1002 

0,1808 

0,2923 

0,4278 

0,5722 

0,7077 

0,8192 

0,8998 

0,9506 

0,9786 

0,9919 

0,9974 

0,9993 

0,9998 

l 







Fonction de répartition P k — p'{ I 













Fonction de ré 


Taille de 
l’échantillon 

l : 

p = 1 % 

p = 2 % 

p = 3 9»' 

p - 4 % 

p = 5 % 

p = 6 % 

N~ 50 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 
12 

13 

14 

15 

16 

17 

18 

19 

20 
21 
22 

23 

24 

25 

26 

27 

28 

29 

30 

31 

32 

33 

34 

35 

36 

37 

38 

0,6050 

0,9106 

0,9862 

0,9984 

0,9999 

1 

0,3642 

0,7358 

0,9216 

0,9822 

0,9968 

0,9995 

0,9999 

1 

0,2181 

0,5553 

0.8108 

0,9372 

0,9832 

0,9963 

0,9993 

0.9999 

1 

0,1299 

0.4005 

0,6767 

0,8609 

0,9510 

0.9856 

0,9964 

0,9992 

0,9999 

1 

0,0769 

0,2794 

0,5405 

0,7604 

0,8964 

0,9622 

0,9882 

0,9968 

0,9992 

0,9998 

1 

0,0453 

0,1900 

0,4162 

0,6473 

0,8206 

0,9224 

0,9711 

0,9906 

0,9973 

0,9993 

0,9998 

1 


P = 10 % 


p = 20 % p = 30 % p = 40 % 


= 50 


on = T)/7 ; ( 1 - p)" k 
o 


p = 7 % 


/7 = 8 % 


p ■- 9 % 


0,0266 

0,1265 

0,3108 

0,5327 

0,7200 

0,8650 

0,9417 

0,9780 

0,9927 

0,9978 

0,9994 

0,9999 

1 


0.0155 

0,0827 

0,2260 

0,4253 

0,6290 

0,7919 

0,8981 

0,9562 

0,9834 

0,9944 

0,9983 

0,9995 

0,9999 

1 


0,0090 

0,0532 

0,1605 

0,3303 

0,5277 

0,7072 

0,8404 

0,9232 

0,9672 

0,9875 

0,9957 

0,9987 

0,9996 

0,9999 

1 


0,0052 

0,0338 

0,1117 

0,2503 

0,4312 

0,6161 

0,7702 

0,8779 

0,9421 

0,9755 

0,9906 

0,9968 

0,9990 

0,9997 

0,9999 

1 


0,0002 

0,0013 

0,0057 

0,0185 

0,0480 

0,1034 

0,1904 

0,3073 

0,4437 

0,5836 

0,7107 

0,8139 

0,8894 

0,9393 

0,9692 

0,9856 

0,9937 

0,9975 

0,9991 

0,9997 

0.9999 

I 


0,0000 

0,0002 

0,0007 

0,0025 

0,0073 

0,0183 

0,0402 

0,0809 

0,1390 

0.2229 

0,3279 

0,4468 

0,5692 

0,6839 

0,7822 

0,8594 

0,9152 

0,9522 

0,9749 

0,9877 

0,9944 

0,9976 

0.9991 

0,9997 

0,9999 

1 


0,0000 

0,0001 

0,0002 

0,0008 

0,0022 

0,0057 

0,0133 

0,0280 

0,0540 

0,0955 

0,1561 

0,2369 

0.3356 

0,4465 

0.5610 

0.6701 

0,7660 

0,8438 

0,9022 

0.9427 

0,9686 

0,9840 

0,9924 

0.9966 

0,9986 

0,9995 

0,9998 

0,9999 

1 


0,0000 
0,0002 
0,0005 
0.0013 
0,0033 
0,0077 
0,0164 
0,0325 
0,0595 
0,1013 
0,1611 
0,2399 
0,3359 
0,4439 
0,5561 
0,6641 
0,7601 
0,8389 
0,8987 
0,9405 
0,9675 
0,9836 
0.9923 
0,9967 
0,9987 
0,9995 
0,9998 
1 
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Table A.3 bis Abaque donnant en fonction de f l'intervalle de confiance à 0.95 (p 0025 À f> 097S ) 

f : fréquence observée (en %) sur un échantillon d'effectif/; 
p : proportion (en %) dans la population échantillonnée 
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Table A.4 Loi de Poisson 





Probabilités individuelles P(X — k) = 

777 k 

e""' — 
k! 



le 

m = 0.1 

hj = 0,2 

m = 0,3 

m = 0,4 

m - 0,5 

77/ = 0,6 

m = 0,7 

777 = 0,8 

m = 0,9 

0 

0.9048 

0,8187 

0.7408 

0,6703 

0,6065 

0,5488 

0,4966 

0,4493 

0.4066 

1 

0.0905 

0,1637 

0,2222 

0,2681 

0.3033 

0,3293 

0,3476 

0,3595 

0,3659 

2 

0,0045 

0,0164 

0,0333 

0,0536 

0,0758 

0,0988 

0.L217 

0.1438 

0,1647 

3 

0,0002 

0.0011 

0,0033 

0.0072 

0,0126 

0,0198 

0,0284 

0,0383 

0,0494 

4 


0,0001 

0,0003 

0,0007 

0,0016 

0.0030 

0,0050 

0,0077 

0,0111 

5 




0,0001 

0,0002 

0,0004 

0,0007 

0,0012 

0,0020 

6 







0.0001 

0,0002 

0,0003 




Probabilités cumulées P(X 

W /// k 

£<-■)= 

k=() K - 



c 

m = 0,1 

m = 0,2 

ni = 0,3 

m = 0,4 

/a — 0,5 

m — 0.6 

7/7 = 0,7 

777 = 0 ,8 

777 - 0,9 

0 

0,9048 

0,8187 

0,7408 

0,6703 

0,6065 

0.5488 

0,4966 

0,4493 

0.4066 

1 

0,9953 

0,9825 

0,9631 

0,9384 

0.9098 

0,8781 

0,8442 

0,8088 

0,7725 

2 

0,9998 

0,9988 

0.9964 

0.9920 

0,9856 

0,9769 

0,9659 

0,9526 

0,9372 

3 

1 

0,9999 

0,9997 

0,9992 

0.9982 

0,9966 

0,9942 

0,9909 

0,9866 

4 


1 

1 

0,9999 

0,9998 

0,9996 

0,9992 

0,9986 

0,9977 

5 




1 

1 

1 

0,9999 

0,9998 

0,9997 

6 







1 

l 

1 


Remarques : 

1) SiX suit une loi de Poisson de paramètre ni on a la relation exacte : 

P(X<c) = P(xi,.n>2m) 

2) Si m est > 18 on peut utiliser l'approximation grossière : 

X + 0.5 — ni 


U 


lin 


où U est la variable de Lapiace-Gauss centrée-réduite. 

3) Une approximation plus précise est donnée par : 


P(X 


c) = P[U> 3Vc + l 


m 


C + 1 


1/3 


+ 


9(c + 1) 
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Table A.4 (su/ie) Loi de Poisson 


k 



Probabilités individuelles P(X = k) = 

;n k 

_ 

k! 




m = 1.0 

m - 1.5 

m = 2.0 

m = 2.5 

ni = 3.0 

w — 3,5 

ni = 4,0 

ni = 4.5 

m - 5.0 

0 

0.3679 

0,2231 

0,1353 

0.0821 

0,0498 

0.0302 

0.0183 

0,01 1 1 

0.0067 

1 

0,3679 

0,3347 

0,2707 

0,2052 

0.1494 

0,1057 

0.0733 

0.0500 

0,0337 

2 

0.1839 

0,2510 

0,2707 

0.2565 

0.2240 

0,1850 

0,1465 

0.1125 

0,0842 

3 

0,0613 

0,1255 

0,1804 

0,2138 

0,2240 

0,2158 

0,1954 

0,1687 

0,1404 

4 

0.0153 

0,0471 

0,0902 

0,1336 

0,1680 

0,1888 

0,1954 

0,1898 

0.1755 

5 

0,0031 

0.0141 

0,0361 

0,0668 

0,1008 

0.1322 

0,1563 

0,1708 

0,1755 

6 

0.0005 

0,0035 

0,0120 

0,0278 

0,0504 

0,0771 

0,1042 

0,1281 

0,1462 

7 

0,0001 

0,0008 

0.0034 

0,0099 

0,0216 

0,0385 

0,0595 

0.0824 

0.1044 

8 


0,0001 

0,0009 

0,0031 

0,0081 

0.0169 

0.0298 

0,0463 

0,0653 

9 



0.0002 

0,0009 

0,0027 

0,0066 

0,0132 

0,0232 

0.0363 

10 




0.0002 

0,0008 

0,0023 

0.0053 

0,0104 

0,0181 

11 





0,0002 

0.0007 

0,0019 

0,0043 

0,0082 

12 





0,0001 

0,0002 

0,0006 

0.0016 

0,0034 

13 






0,0001 

0,0002 

0.0006 

0.0013 

14 







0.0001 

0,0002 

0,0005 

15 








0.0001 

0,0002 

16 









0.0001 

c 



Probabilités cumulées P(X 

k= 

k= 

e — 

, k! 




m = 1.0 

m — 1,5 

m = 2,0 

m = 2.5 

m = 3.0 

in — 3.5 

m = 4,0 

m ~ 4.5 

c 

LO 

II 

0 

0,3679 

0,2231 

0,1353 

0,0821 

0,0498 

0,0302 

0,0183 

0.01 1 1 

0,0067 

1 

0,7358 

0,5578 

0,4060 

0,2873 

0,1991 

0.! 359 

0,0916 

0,0611 

0,0404 

2 

0.9197 

0,8088 

0.6767 

0,5438 

0,4232 

0,3208 

0,2381 

0,1736 

0,1247 

3 

0,9810 

0,9344 

0,8571 

0,7576 

0.6472 

0,5366 

0,4335 

0,3423 

0,2650 

4 

0,9963 

0,9814 

0,9473 

0.8912 

0,8153 

0,7254 

0,6288 

0,5321 

0,4405 

5 

0,9994 

0,9955 

0,9834 

0,9579 

0,9161 

0,8576 

0,7851 

0,7029 

0,6160 

6 

0,9999 

0,999 i 

0,9955 

0,9858 

0,9665 

0,9347 

0,8893 

0,8311 

0,7622 

7 

1 

0,9998 

0.9989 


0,9881 

0,9733 

0,9489 

0,9134 

0,8666 

8 


1 

0.999S 

0,9989 

0,9962 

0,9901 

0,9786 

0.9597 

0,9319 

9 



1 


0.9989 

0,9967 

0,9919 

0,9829 

0,9682 

10 




0,9999 

0,9997 

0,9990 

0,9972 

0.9933 

0,9863 

11 




1 

0.9999 

0.9997 

0.9991 

0,9976 

0,9945 

12 





1 

0,9999 

0,9997 

0,9992 

0,9980 

13 






I 

0,9999 

0.9997 

0,9993 

14 







1 

0,9999 

0,9998 

15 








l 

0.9999 

16 









I 
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Table A.4 (suite) Loi de Poisson 
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Table A.4 (suite) Loi de Poisson 


c 



Probabilités cumulées P(X 

k=t 

^ 0 = 2 
k=< 

/T 




«n 

li 

ni = 6.0 

m = 6,5 

m = 7,0 

ni - 7,5 

m = 8.0 

ni = 8,5 

m = 9,0 

nt = 9,5 

0 

0.0041 

0,0025 

0,0015 

0,0009 

0,0006 

0,0003 

0,0002 

0.0001 

0,0001 

1 

0.0266 

0,0174 

0,0113 

0.0073 

0,0047 

0.0030 

0,0019 

0,0012 

0,0008 

2 

0,0884 

0.0620 

0,0430 

0,0296 

0.0203 

0,0138 

0,0093 

0,0062 

0,0042 

3 

0,2017 

0,1512 

0.1118 

0,0818 

0,0591 

0,0424 

0,0301 

0.0212 

0,0149 

4 

0,3575 

0,2851 

0.2237 

0,1730 

0.1321 

0.0996 

0.0746 

0.0550 

0,0403 

5 

0,5289 

0,4457 

0,3690 

0,3007 

0,2414 

0,1912 

0,1496 

0,1157 

0,0885 

6 

0,6860 

0,6063 

0.5265 

0,4497 

0,3782 

0,3134 

0,2562 

0,2068 

0,1649 

7 

0,8095 

0,7440 

0,672S 

0,5987 

0,5246 

0.4530 

0,3856 

0,3239 

0,2687 

8 

0.9044 

0,8472 

0,7916 

0,7291 

0,6620 

0,5925 

0,5231 

0,4557 

0.3918 

9 

0,9462 

0,9161 

0,8774 

0,8305 

0,7764 

0,7166 

0,6530 

0,5874 

0,5218 

10 

0.9747 

0.9574 

0.9332 

0,9015 

0,8622 

0,8159 

0,7634 

0,7060 

0,6453 

TT 

0,9890 

0,9799 

0,9661 

0,9466 

0,9208 

0,8881 

0.8487 

0,8030 

0,7520 

12 

0,9955 

0,9912 

0.9840 

0,9730 

0,9573 

0,9362 

0,9091 

0,8758 

0,8364 

13 

0,9983 

0,9964 

0,9929 

0.9872 

0,9784 

0.9658 

0.9486 

0,9261 

0.8981 

14 

0,9994 

0,9986 

0,9970 

0.9943 

0,9897 

0,9827 

0,9726 

0,9585 

0,9400 

15 

0,9998 

0,9995 

0,9988 

0.9976 

0,9954 

0,9918 

0,9862 

0,9780 

0,9665 

16 

0.9999 

0.9998 

0,9996 

0,9990 

0,9980 

0,9963 

0,9934 

0,9889 

0,9823 

17 

1 

1 

0,9998 

0,9996 

0,9992 

0,9984 

0,9970 

0,9947 

0,9911 

18 



1 

0,9999 

0,9997 

0,9993 

9,9987 

0,9976 

0.9957 

19 




1 

0,9999 

0.9997 

0.9995 

0,9989 

0,9980 

20 





1 

0,9999 

0,9998 

0,9996 

0,9991 

21 






1 

0.9999 

0.9998 

0,9996 

22 







1 

0,9999 

0,9998 

23 








1 

0.9999 

24 









1 
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k! 
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Table A.5 Fonction de répartition de la loi normale réduite 
(Probabilité de trouver une valeur inférieure à u) 



0,0 0.5000 
0,1 0,5398 

0,2 0,5793 

0,3 0,6179 

0.4 0.6554 

0.5 0,6915 

0,6 0.7257 

0.7 0,7580 

0,8 0,7881 

0,9 0,8159 

0,8413 
0,8643 
0,8849 
0,9032 
0,9192 
0,9332 
0,9452 
0.9554 
0,9641 


0,5040 
0,5438 
0,5832 
0,6217 
0,6591 
0.6950 
0,7290 
0,7611 
0.7910 
0,8186 

0,8438 

0,8665 

0,8869 

0.9049 

0,9207 

0,9345 

0,9463 

0,9564 

0,9649 

0.9719 




Table pour les grandes valeurs de u 








































































Table A.5 bis Fractiles de la loi normale réduite 



P 

0.000 

0.001 

0,002 

0,003 

0.004 

0,005 

0,006 

0,007 

0,008 

0.009 

0,010 


0.00 


3,0902 

2,8782 

2,7478 

2.6521 

2,5758 

2.5121 

2.4573 

2.4089 

2,3656 

2.3263 

0,99 

0,01 

2,3263 

2.2904 

2.2571 

2.2262 

2,1973 

2.1701 

2.1444 

2.1201 

2.0969 

2,0749 

2.0537 

0.98 

0,02 

2.0537 

2.0335 

2,0141 

1.9954 

1,9774 

1.9600 

1,9431 

1,9268 

1.9110 

1,8957 

1,8808 

0.97 

0.03 

1,8808 

1,8663 

1,8522 

1,8384 

1,8250 

1,8119 

1,7991 

1.7866 

1.7744 

1,7624 

1.7507 

0,96 

0.04 

1.7507 

1.7392 

1,7279 

1.7169 

1.7060 

1,6954 

1.6849 

1.6747 

1.6646 

1,6546 

1.6449 

0,95 

0.05 

1.6449 

1,6352 

1,6258 

1.6164 

1.6072 

1,5982 

1.5893 

1.5805 

1.5718 

1.5632 

1.5548 

0,94 

0.06 

1.5548 

1.5464 

1.5382 

1.5301 

1.5220 

1,5141 

1.5063 

1,4985 

1,4909 

1.4833 

1.4758 

0,93 

0,07 

1,4758 

1,4684 

1.4611 

1.4538 

1,4466 

1,4395 

1,4325 

1,4255 

1,4187 

1,4118 

1,4051 

0.92 

0,08 

1,4051 

1.3984 

1,3917 

1,3852 

1,3787 

1,3722 

1,3658 

1,3595 

1,3532 

1,3469 

1.3408 

0,91 

0,09 

1,3408 

1.3346 

1,3285 

1,3225 

1.3165 

1.3106 

1,3047 

1.2988 

1.2930 

1.2873 

1,2816 

0,90 

0,10 

1,2816 

1.2759 

1.2702 

1,2646 

1,2591 

1.2536 

1.2481 

1,2426 

1.2372 

1,2319 

1.2265 

0,89 

0.11 

1,2265 

1,2212 

1,2160 

1,2107 

1.2055 

1,2004 

1.1952 

1.1901 

1.1850 

1,1800 

1.1750 

0.88 

0,12 

1,1750 

1.1700 

1,1650 

1,1601 

1.1552 

1,1503 

1,1455 

1,1407 

1,1359 

1.1311 

1.1264 

0.87 

0.13 

1.1264 

1.1217 

1,1170 

1.1123 

1.1077 

1.1031 

1.0985 

1,0939 

1,0893 

1.0848 

1.0803 

0.86 

0,14 

1,0803 

1.0758 

1,0714 

1,0669 

1,0625 

1.0581 

1,0537 

1.0494 

1,0450 

1.0407 

1.0364 

0,85 

0,15 

1.0364 

1,0322 

1,0279 

1,0237 

1.0194 

1.0152 

1,0110 

1,0069 

1,0027 

0.9986 

0.9945 

0,84 

0,16 

0,994.8 

0,9904 

0.9863 

0.9822 

0,9782 

0,9741 

0.970! 

0.9661 

0,9621 

0,9581 

0.9542 

0,83 

0.17 

0.9542 

0,9502 

0.9463 

0.9424 

0,9385 

0,9346 

0.9307 

0.9269 

0.9230 

0.9192 

0,9154 

0,82 

0.18 

0.9154 

0,9116 

0.9078 

0.9040 

0,9002 

0,8965 

0.8927 

0,8890 

0,8853 

0.8816 

0,8779 

0,81 

0,19 

0.8779 

0,8742 

0.8705 

0.8669 

0,8633 

0,8596 

0,8560 

0,8524 

0,8488 

0,8452 

0,8416 

O.SO 

0,20 

0.8416 

0,8381 

0.8345 

0,8310 

0.8274 

0,8239 

0,8204 

0,8169 

0,8134 

0.8099 

0,8064 

0.79 

0,21 

0.8064 

0.8030 

0,7995 

0,7961 

0.7926 

0.7892 

0,7858 

0,7824 

0,7790 

0,7756 

0,7722 

0.78 

0,22 

0,7722 

0.7688 

0,7655 

0,7621 

0.7588 

0.7554 

0.7521 

0,7488 

0.7454 

0,7421 

0.7388 

0.77 

0.23 

0,7388 

0,7356 

0.7323 

0,7290 

0.7257 

0,7225 

0.7192 

0.7160 

0,7128 

0,7095 

0.7063 

0,76 

0,24 

0.7063 

0,7031 

0,6999 

0,6967 

0,6935 

0.6903 

0.6871 

0.6840 

0.6808 

0,6776 

0.6745 

0.75 

0.25 

0.6745 

0.6713 

0,6682 

0.6651 

0,6620 

0.6588 

0,6557 

0.6526 

0.6495 

0.6464 

0.6433 

0.74 

0.26 

0,6433 

0.6403 

0,6372 

0,6341 

0.6311 

0.6280 

0.6250 

0,6219 

0,6189 

0.6158 

0.6128 

0.73 

0,27 

0.6128 

0,6098 

0,6068 

0.6038 

0.6008 

0.5978 

0.5948 

0.5918 

0.5888 

0.5858 

0.5828 

0,72 

0.28 

0.5828 

0,5799 

0.5769 

0,5740 

0,5710 

0,5681 

0.5651 

0.5622 

0.5592 

0.5563 

0.5534 

0,71 

0.29 

0.5534 

0,5505 

0.5476 

0,5446 

0,5417 

0.5388 

0,5359 

0.5330 

0.5302 

0.5273 

0,5244 

0,70 

0.30 

0.5244 

0,5215 

0.5187 

0,5158 

0,5129 

0,5101 

0,5072 

0.5044 

0,5015 

0.4987 

0,4959 

0,69 

0.31 

0.4959 

0,4930 

0.4902 

0,4874 

0,4845 

0,4817 

0,4789 

0,4761 

0,4733 

0,4705 

0,4677 

0,68 

0.32 

0.4677 

0.4649 

0,4621 

0,4593 

0.4565 

0.4538 

0,4510 

0,4482 

0.4454 

0,4427 

0.4399 

0.67 

0.33 

0,4399 

0.4372 

0.4344 

0,4316 

0.4289 

0.4261 

0,4234 

0.4207 

0,4179 

0,4152 

0.4125 

0,66 

0.34 

0.4125 

0,4097 

0.4071) 

0,4043 

0.4016 

0,3989 

0.3961 

0.3934 

0,3907 

0.3880 

0.3853 

0,65 

0,35 

0,3853 

0,3826 

0.3799 

0.3772 

0,3745 

0,3719 

0.3692 

0.3665 

0.3638 

0.3611 

0.3585 

0,64 

0,36 

0,3585 

0,3558 

0.3531 

0,3505 

0,3478 

0.3451 

0,3425 

0.3398 

0.3372 

0,3345 

0.3319 

0,63 

0,37 

0,3319 

0.3292 

0,3266 

0.3239 

0.3213 

0.3186 

0.3160 

0,3134 

0,3107 

0,3081 

0.3055 

0,62 

0,3.8 

0.3055 

0.3029 

0.3002 

0.2976 

0.2950 

0.2924 

0.2898 

0.2871 

0.2845 

0.2819 

0,2793 

0,61 

0,39 

0.2793 

0,2767 

0.274 ! 

0,2715 

0,2689 

0.2663 

0.2637 

0.261 1 

0.2585 

0.2559 

0,2533 

0.60 

0.40 

0.2533 

0,2508 

0.2482 

0,2456 

0,2430 

0.2404 

0,2378 

0,2353 

0,2327 

0,2301 

0,2275 

0.59 

0.41 

0,2275 

0,2250 

0.2224 

0.2198 

0.2173 

0,2147 

0,2121 

0,2096 

0.2070 

0.2045 

0.2019 

0.58 

0.42 

0,2019 

0.1993 

0.1968 

0,1942 

0,1917 

0,1891 

0,1866 

0.1840 

0,1815 

0,1789 

0.1764 

0.57 

0,43 

0,1764 

0.1738 

0.1713 

0.1687 

0.1662 

0.1637 

0,1611 

0,1586 

0,1560 

0,1535 

0.1510 

0.56 

0.44 

0.1510 

0.1484 

0,1459 

0,1434 

0.1408 

0.1383 

0.1358 

0,1332 

0,1307 

0,1282 

0.1257 

0,55 

0.45 

0.1257 

0.1231 

0.1206 

0,1181 

0.1156 

0,1130 

0,1105 

0.1080 

0.1055 

0.1030 

0.1004 

0,54 

0,46 

0.1004 

0.0979 

0,0954 

0.0929 

0.0904 

0.0878 

0,0853 

0,0828 

0,0803 

0,0778 

0,0753 

0,53 

0,47 

0,0753 

0,0728 

0,0702 

0.0677 

0,0652 

0.0627 

0.0602 

0.0577 

0.0552 

0.0527 

0,0502 

0.52 

0,48 

0.0502 

0.0476 

0,045 ! 

0,0426 

0,0401 

0,0376 

0,0351 

0.0326 

0.0301 

0.0276 

0,0251 

0.51 

0,49 

0.0251 

0,0226 

0.0201 

0.0175 

0,0150 

0.0125 

0.0100 

0,0075 

0,0050 

0.0025 

0,0000 

0.50 


0,010 

0,009 

0,008 

0.007 

0,006 

0.005 

0.004 

0.003 

0.002 

0,001 

0,000 

P 


Grandes valeurs de n 


P 

0.9999 

0,99999 

0,999999 

0,9999999 | 0.99999999 

0.999999999 

U 

3,7190 

4.2649 

4,7534 

5.1993 

5.6120 

5,9978 


N.H. vSi P < 0.5. h est négatif. 







Table A.6 Fractiles de la loi du \ 2 - v nombre de degrés de liberté 



\\ 

0,00050 

0.0010 

0,0050 

0.01(1 

(1,0250 

0,050 

0,1(1 

(1.20 

0,3)1 

0,40 

(1,50 

0,60 

0,70 

0,80 

0,00 




0.0050 

(1,000(1 

0,00050 

1 

0,188)000393 

0,00000157 

0.0000303 

0,000157 

0,000082 

0,00393 

0,0158 

0,06-12 

0,148 

0,275 

0,455 

0,7(m 

1,074 

1,042 

2,70(i 

3,841 

5.024 

0,63.7 

7,879 

10,828 

12,116 

: 

0,00)00 

0,00200 

0,0100 

0,0201 

(1,0506 

0,103 

0,211 

0,446 

0,713 

1.022 

1,386 

1.83.1 

2,408 

3,210 

4,605 

5,001 

7,378 

9,210 

10,507 

13,816 

15,202 

3 

(1,0153 

0.0243 

0,0717 

0,115 

(1,216 

(1.352 

0,584 

1,005 

1,424 

1,1160 

2,366 

2,946 

3,665 

4,042 

(1,251 

7.KI5 

9,348 

M,345 

12,838 

16.266 

17.730 

4 

(1,0(1.10 

0,0008 

0,207 

0,207 

0,4 K4 

(1.711 

1.064 

1,649 

2,105 

2,753 

3.357 

4,045 

4,878 

5.080 

7,770 

9,488 

11,143 

13,277 

14.860 

18,467 

19,998 

5 

0,158 

0,210 

0,412 

0,551 

0,1(31 

1,145 

1.610 

2,343 

3,000 

3,655 

4,351 

5.132 

0,064 

7,280 

0.236 

11,(170 

12,832 

15,08(i 

l(i,750 

20,515 

22,105 

6 

0,200 

0,3 H i 

(1,070 

0,H72 

1,237 

i ,635 

2.204 

3,070 

3,828 

4,570 

5,34 R 

6,211 

7,231 

8,558 

10,645 

12.502 

14,440 

16,K12 

1H .548 

22,458 

24,103 

7 

0,485 

0,508 

0.080 

1,230 

1,690 

2,167 

2,833 

3,822 

4,671 

5,403 

6,346 

7,283 

8,383 

0,803 

12,017 

14,067 

16,013 

18,475 

20,278 

24,322 

26,018 

t! 

0,710 

0.857 

1,344 

1,646 

2,18(1 

2,733 

3,400 

4,504 

5,527 

6,423 

7,344 

8,351 

9,524 

11,030 

13,362 

15,507 

17.535 

20.000 

21.055 

26,125 

27,8611 

0 

0,072 

1,153 

1,735 

2,01111 

2,700 

3,325 

4,168 

5.3110 

6,303 

7,357 

8,343 

0.414 

10,656 

12,242 

14,684 

16,010 

10,023 

2l,fih(l 

23,580 

27,1177 

20,666 

1» 

1,265 

1,479 

2,150 

2.558 

3,247 

3.040 

4, H 65 

6,179 

7,2(>7 

K,295 

9.342 

10,473 

1 1,781 

13,442 

15,9117 

IH.307 

20,483 

2.1,209 

25,(88 

20,588 

31.410 

11 

1.5(17 

1,1134 

2,603 

3,053 

3,H 16 

4,575 

5,578 

(i.OHO 

8,148 

9,237 

10,341 

11,530 

12,800 

14,631 

17.275 

10,675 

21,020 

24.725 

26.757 

31,264 

33,136 

12 

1,034 

2,214 

3.074 

3,571 

4,404 

5,226 

0,304 

7,807 

0,034 

10,182 

11,340 

12.584 

14,011 

15,1112 

18,540 

21,026 

23,336 

26,217 

28.300 

32,000 

34,821 

13 

2,305 

2,617 

3,505 

4.107 

5,000 

5,802 

7,042 

8,634 

9,926 

11,120 

12.340 

13,636 

15,110 

16,985 

10,1112 

22,362 

24,736 

27,088 

29,819 

34,52H 

36,478 

1-1 

2,007 

3.011 

4,075 

4,660 

5,620 

6,571 

7.700 

0,467 

10.821 

12,079 

13,339 

|4,6K5 

16,222 

18,151 

21,064 

23,685 

2(i.ll0 

20,141 

31,319 

36,123 

38,109 

15 

3,108 

3.41(3 

4,001 

5,220 

6,262 

7,261 

8,547 

10,307 

11,721 

13,030 

14,330 

15.733 

17,322 

10,311 

22,307 

24,006 

27,4118 

30.578 

32,1101 

37.607 

30,710 

l<i 

3,536 

33M2 

5,142 

5.812 

0,90k 

7,962 

0,312 

11,152 

12,624 

13,01(3 

15,338 

10,780 

IH.4IH 

20.465 

23.542 

2(i,29(> 

28,845 

32,000 

34,267 

39.252 

41,308 

17 

3.980 

4.41(i 

5,097 

6.408 

7,561 

8,672 

10,085 

12,002 

13,531 

14,937 

16,338 

17.824 

10,511 

21,615 

24.760 

27,587 

30.101 

.13,409 

35,718 

10,790 

42,879 

18 

4,430 

4,005 

0,205 

7,015 

8,231 

0,300 

10,865 

12,857 

14.140 

15,803 

17,338 

18,1(68 

20,601 

22,760 

25.080 

28,860 

31,526 

34,805 

37.156 

42.312 

44,434 

Ml 

4,012 

5.407 

0.844 

7,633 

K .907 

10,117 

1 1,651 

13,716 

15.352 

16,851) 

18.338 

10,010 

21,0119 

23,900 

27,204 

30,144 

32,852 

36.101 

38,582 

43,820 

45,073 

21! 

5,308 

5,921 

7.434 

il,260 

9.591 

104151 

12,443 

14,578 

16,266 

17,800 

19.337 

20,051 

22.775 

25.038 

28,412 

31,410 

34,170 

37.566 

39,997 

45,315 

47,4011 

:i 

5.!IOfi 

6,447 

11,034 

11,807 

10,283 

11,501 

13.240 

15,445 

17,11(2 

18,768 

20,337 

21,001 

23,858 

26,171 

20,615 

32,671 

35.470 

38,032 

41,401 

46,707 

40,010 

22 

<1,405 

6,083 

11,043 

9,542 

10,082 

12.338 

14,041 

16,314 

18,101 

10,720 

21,337 

23,031 

24,939 

27,301 

30,813 

33,021 

36,7.81 

40.280 

42,796 

48.268 

50,511 

22 

fi,'>24 

7.529 

0.260 

10.106 

1 1 ,omi 

13,091 

I4,H4K 

17,187 

10,021 

20,600 

22.337 

24,069 

2(i,OI8 

28,429 

32,007 

35,172 

38,076 

4 1 ,638 

44.181 

49,728 

52,000 

2-J 

7,45,1 

R .0115 

0,886 

10,856 

12.401 

13,K4!t 

15.659 

1K.062 

10.043 

21,652 

23,337 

25.104» 

27,090 

20,553 

33,196 

36,415 

30.3M 

42.080 

45,558 

51,170 

53,479 







Table A.6 (suite) Fractiles de la loi du x 2 - v nombre de degrés de liberté 


0,00050 

0,0010 

0,0051) 

0,010 

0,0 250 

0,05(1 

(MO 

(Ml) 

0,30 

0.40 

0,50 

0.60 

0.70 


0.90 

0,950 

0,9750 

0.990 

0.9950 

0.9990 

0,99950 

7.991 

H,040 

10,521) 

11,524 

13,120 

14,01 1 

10,473 

18,0411 

20.807 

22,010 

24,337 

20,143 

28,172 

30,075 

34,382 

37,652 

40,040 

14.314 

46.92» 

52.020 

54,047 

11,538 

0,222 

11,100 

12,101! 

13,1144 

15,370 

17,202 

10,820 

21,702 

23,570 

25,330 

27.170 

29.240 

31,705 

35,503 

311,81(5 

41,023 

45,042 

4»,290 

54,052 

50,407 

9,093 

0.1103 

II.IIDH 

12.870 

14,573 

10,151 

18,114 

20,703 

22,710 

24,544 

20,330 

28,214 

30,310 

32,012 

30,741 

40,113 

43,104 

40,903 

49,(1-15 

55.476 

57,858 

9.050 

10,391 

12,401 

13,505 

15,.108 

10,028 

18,0.70 

21.588 

23,047 

25.51)0 

27.330 

20,240 

31,301 

34,027 

37,910 

41,337 

44,401 

48,278 

5(1,993 

56,1)02 

59,301! 

10,227 

1O.9K0 

13,121 

14,250 

l(i.()47 

17.7118 

10,708 

22.475 

24.577 

20,475 

28,330 

30.283 

32,401 

35,130 

30,087 

42,557 

45.722 

40,581) 

52,326 

58,302 

(.0,734 

10,KOI 

11,51111 

13,71(7 

14,053 

10,701 

18,403 

20,500 

23,364 

25,508 

27,442 

20,330 

31.310 

33,53(1 

30,250 

40,250 

43.773 

46,079 

50.892 

53,672 

59,703 

(.2,161 

11.311') 

12,100 

14,45» 

15,055 

17,530 

10.281 

21.434 

24,255 

20,440 

28,400 

30,330 

32.340 

34.508 

37,359 

41,422 

44,985 

48,232 

52,191 

55.003 

01,098 

63,582 

11.979 

12,Kll 

15,134 

10,302 

111,201 

20.072 

22.271 

25,148 

27,373 

20,370 

31,330 

3J.38I 

35,005 

311,400 

42,585 

46,104 

40,480 

53.486 

5o,3 28 

(.2,4117 

(.4,995 

12,576 

13.431 

I5.K15 

17,073 

10,047 

211,807 

23,110 

26,0-12 

28.J07 

30.344 

32.331. 

34,413 

30,731 

30,572 

43,745 

47,4(8) 

50,725 

54,771. 

57.64 K 

(.3,870 

00,402 

13,170 

14,057 

10,501 

17,7)10 

10,800 

21,004 

23,052 

26,038 

29,242 

31,313 

33,330 

35,444 

37,705 

40,070 

44,01)3 

48,602 

51,060 

56,001 

5H.904 

05,247 

07,803 

13,781) 

14.OKU 

17,102 

111,500 

20,500 

22,405 

24.707 

27,83(i 

30,178 

32,282 

34,330 

30,475 

38.850 

41,77» 

40,050 

49,802 

53,203 

.37.342 

60,275 

06,019 

09,19!) 

14,401 

15,324 

17.I1K7 

10,233 

21,330 

23,200 

25.043 

28,735 

31,115 

33.252 

35,330 

37,505 

30,022 

42,1(74 

47,212 

50,008 

54,437 

58,010 

61,SKI 

07,985 

70,588 

15,021) 

15,005 

111.580 

10,000 

22,1(K. 

24.075 

20.402 

20,(.35 

32,053 

34,222 

30,330 

38,5.35 

40,084 

43.078 

48,303 

52,102 

55,008 

50,802 

62.KKJ 

69,34(1 

71,972 

15,044 

10,011 

10,280 

20.001 

22,878 

24,1184 

27,343 

30.5.17 

32.902 

35,102 

37,335 

30.504 

42.045 

45,070 

40,513 

53,384 

50,1105 

01,102 

64.IH1 

70,703 

73,351 

10,273 

17,201 

10,000 

21,420 

23.054 

25.005 

211,100 

31.441 

33,032 

30,103 

38,335 

411.503 

43,105 

40,173 

50,000 

54,572 

58,120 

02,4211 

65.476 

72,055 

74,725 

10,000 

17,010 

20,707 

22,104 

24,433 

20,51)0 

20,1)51 

32,345 

34,872 

37,134 

30.335 

41.022 

44,105 

47,200 

51,805 

55,758 

59,342 

(.3,001 

66,766 

73,402 

70,(8)5 

17.544 

1H.575 

21,421 

22,000 

25,215 

27.320 

20,007 

33,251 

35,813 

38,105 

40.335 

42,051 

45.224 

48,303 

52,940 

5(1,942 

60,501 

(.4,050 

68.053 

74,745 

77,459 

1 il. 11)0 

10,23 H 

22,138 

23,050 

25,000 

28,144 

30.705 

34,157 

30,755 

30,077 

41,335 

43,070 

40,282 

40,450 

54,090 

58,124 

01,777 

(.0,218. 

69,336 

70,084 

78,820 

II1.H32 

10,005 

22,850 

24,3011 

26,785 

28.005 

31,025 

35,065 

37,0011 

40,051) 

■12,335 

44.7110 

47,330 

50,548 

55,230 

50,304 

02,091) 

(.7.459 

70,616 

77,418 

KO. 176 

19,482 

20.570 

23.584 

25,1411 

27,575 

20.787 

32,487 

35,074 

38,0-11 

41,022 

43,335 

45.734 

48.300 

51.030 

50,304 

00,481 

04,201 

08.709 

71 ,H9.î 

78,749 

«1.528 

20,130 

21.251 

24,311 

25,001 

28,300 

311.012 

33,350 

30,884 

30,5115 

41,005 

44,335 

40.701 

40.452 

52,729 

57,505 

01,050 

05.410 

09,957 

7.1,166 

1)0.077 

1)2,870 

20,704 

21,020 

25,041 

20.057 

20,10(1 

31.430 

34,215 

37,705 

40,529 

42.008 

45,335 

47,787 

50.507 

53,818 

58,041 

(.2,830 

06,1.17 

71,201 

74.437 

81,400 

84,220 

21,450 

22,010 

25,774 

27,410 

20,050 

32.208 

35,1181 

311,708 

41,474 

43,042 

40,335 

48.814 

51.502 

54,000 

59,774 

04,(811 

67,1(21 

72,443 

75.704 

1)2,720 

H5.500 

22,121 

23,205 

20,511 

28,177 

30,755 

33,11011 

35,040 

30,021 

42,421) 

44,015 

47,335 

49.840 

52,010 

55.003 

00,907 

05.171 

09,023 

73,083 

76,969 

84,037 

86,897 

22.71(0 

23,0113 

27,240 

28,041 

31,555 

33.030 

30,8111 

40,534 

43,300 

45,880 

48.335 

50,800 

53.070 

57,070 

02,038 

66,330 

70,222 

74.919 

7 K,231 

115.350 

1(11,231 








Table A.6 (suite) Fbactiles de la loi 


\ 

0,00050 

0,00 II) 

0.0050 

0.01(1 

0,0250 

0.050 

0.10 

0.20 

nju 

0.40 

0.50 

50 

23,401 

24,074 

27,001 

20,707 

32,357 

34,704 

37,050 

41,440 

44,313 

■10,804 

40,335 

51 

24,130 

25,3011 

2K.735 

30,475 

33,102 

35,000 

38,5(4) 

-12,305 

-15,201 

47,838 

50,335 

5: 

24,1114 

2<i,l)fi5 

20,45 i 

31,240 

33,005 

30,437 

30,133 

-13.28) 

40,200 

48,813 

51,335 

53 

25.405 

20,705 

30,230 

32,011! 

34,770 

37,270 

40,305 

44,100 

47,157 

40,788 

52,335 

54 

20.170 

27,405 

30,051 

32,703 

35,580 

35.110 

41,111,3 

45,117 

48.100 

511,704 

53.335 

55 

2(i,H00 

2)1,173 

31,735 

33,570 

30,305 

35,055 

42,000 

40,036 

40,050 

51.730 

54,335 

50 

27,550 

25.IL1I 

32,400 

34.350 

37,212 

30,801 

42,037 

46,055 

50,005 

52,715 

55,335 

57 

211,245 

20,502 

33,245 

35,131 

35,027 

40,040 

43,1110 

47,870 

50,051) 

53.001 

50,335 

5» 

25,043 

30,305 

34.005 

35,013 

35,544 

41,402 

44,000 

18,707 

51,00(i 

54,007 

57,335 

50 

20,04(1 

31,021 

31.771 

30,005 

30,002 

42,330 

-15,577 

-10,718 

52.857 

55,(1-13 

58.335 

no 

30,340 

31,730 

35.535 

37,455 

40.152 

43,155 

40.450 

50,041 

53,11(81 

50,020 

50,335 

ni 

31,043 

32,450 

30,301 

35,273 

41,303 

44,035 

47,342 

51.564 

54,701 

57.507 

00,335 

02 

31,745 

33,1111 

37,0011 

30,003 

42,120 

44,550 

45.220 

52,487 

55.714 

58,574 

01,335 

ni 

32,455 

33,000 

.37,535 

30,1155 

42,050 

45,741 

40,111 

53.411 

50,000 

50.551 

02,335 

04 

33,105 

34,033 

35,010 

40,040 

43,770 

40,505 

40,000 

54.33(i 

57,010 

00.528 

03.335 

05 

33,1177 

35.302 

30,353 

41.414 

44,003 

47,450 

50,8113 

55,202 

58,573 

01,500 

04,335 

0(i 

34.501 

30,003 

40,155 

42,240 

45.431 

45,305 

5 i ,770 

50.188 

50,527 

02,484 

05.335 

67 

35,31)7 

30,1120 

40,035 

43,0,35 

40,201 

40,102 

52,050 

57,115 

OO.-ltl 1 

03,401 

00,335 

OH 

30,025 

37.501 

41,713 

43,1135 

47.002 

50,020 

53,545 

58.042 

01,430 

04,440 

67.334 

00 

3(i,745 

35,205 

42,404 

44,030 

47,024 

50,570 

54,435 

58.070 

02,301 

05,418 

011,334 

70 

37.407 

30,030 

43.275 

45,442 

45,755 

51,730 

55,320 

50,508 

03,34(1 

(>0,300 

60,334 

71 

311,102 

30.777 

44,055 

4(i,240 

40.502 

52,000 

50,221 

00,827 

04,302 

07,375 

70,33-1 

71 

311,01)1 

40,520 

44,543 

47.051 

50,125 

53,402 

57,113 

(il.750 

05.258 

08,353 

71,334 

75 

30,MO 

41.204 

45,020 

47.H55 

51.205 

54,325 

55,000 

02,080 

00,214 

00,332 

72.334 

74 

40,370 

42,01(1 

40,417 

45.000 

52,103 

55,150 

58,000 

03,010 

07.170 

70.311 

73,334 
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,4MTables usuelles 


Table A.7 ( suite ) Valeurs f de la variable de Fisher-Snedecor F(v| ; t 2 ) ayant la probabilité 

0.05 d'être dépassées 


0,95 ^\n,05 

_ W /77 ï 7 ï 7 ït , 



i 

T 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

16 

17 

18 

1 

161 

200 

216 

225 

230 

234 

237 

239 

241 

242 

243 

244 

245 

245 

246 

246 

247 

247 

2 

18.5 

19.0 

19.2 

19.2 

19.3 

19.3 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

19.4 

3 

10 . ! 

9.55 

9.28 

9.12 

9,01 

8.94 

8.89 

8.85 

8.81 

8.79 

8.76 

8.74 

8.73 

8.71 

8.70 

8.69 

8.68 

8.67 

4 

7.71 

6.94 

6.59 

6.39 

6.26 

6.16 

6.09 

6.04 

6.00 

5.96 

5.94 

5.91 

5.89 

5.87 

5.86 

5.84 

5.83 

5.82 

5 

6.61 

5.79 

5.41 

5.19 

5.05 

4.95 

4.88 

4.82 

4.77 

4.74 

4.70 

4.68 

4.66 

4.64 

4.62 

4.60 

4.59 

4.58 

(> 

5.99 

5.14 

4.76 

4.53 

4.39 

4.28 

4.21 

4.15 

4.10 

4.06 

4.03 

4.00 

3.98 

3.96 

3.94 

3.92 

3.91 

3.90 

7 

5.59 

4.74 

4.35 

4.12 

3.97 

3.87 

3.79 

3.73 

3.68 

3.64 

3.60 

3.57 

3.55 

3.53 

3.51 

3.49 

3.48 

3.47 

R 

5.32 

4.46 

4.07 

3.84 

3.69 

3.58 

3.50 

3.44 

3.39 

3.35 

3.31 

3.28 

3.26 

3.24 

3.22 

3.20 

3.19 

3.17 

9 

5.12 

4.26 

3.86 

3.63 

3.48 

3.37 

3.29 

3.23 

3.18 

3.14 

3.10 

3.07 

3.05 

3.03 

3.01 

2.99 

2.97 

2.96 

10 

4.90 

4.10 

3.71 

3.48 

3.33 

3.22 

3.14 

3.07 

3.02 

2.98 

2.94 

2.91 

2.89 

2.86 

2.85 

2.83 

2.81 

2.80 

11 

4.84 

3.98 

3.59 

3,36 

3.20 

3.09 

3.01 

2.95 

2.90 

2.85 

2.82 

2.79 

2.76 

2.74 

2.72 

2.70 

2.69 

2.67 

12 

4.75 

3.89 

3.49 

3.26 

3.11 

3.00 

2.91 

2.85 

2.80 

2.75 

2.72 

2.69 

2.66 

2.64 

2.62 

2.60 

2.58 

2.57 

13 

4.67 

3.81 

3.41 

3.18 

3.03 

2.92 

2.83 

2.77 

2.71 

2.67 

2.63 

2.60 

2.58 

2.55 

2.53 

2.51 

2.50 

2.48 

14 

4.60 

3.74 

3.34 

3.11 

2.96 

2.85 

2.76 

2.70 

2.65 

2.60 

2.57 

2.53 

2.51 

2.48 

2.46 

2.44 

2.43 

2.41 

15 

4.54 

3.68 

3.29 

3.06 

2.90 

2.79 

2.71 

2.64 

2.59 

2.54 

2.51 

2.48 

2.45 

2.42 

2.40 

2.38 

2.37 

2.35 

16 

4.49 

3.63 

3.24 

3.01 

2.85 

2.74 

2.66 

2.59 

2.54 

2.49 

2.46 

2.42 

2.40 

2.37 

2.35 

2.33 

2,32 

2.30 

17 

4.45 

3.59 

3.20 

2.96 

2.81 

2.70 

2.61 

2.55 

2.49 

2.45 

2.41 

2.38 

2.35 

2.33 

2.31 

2.29 

2.27 

2.26 

IR 

4.41 

3.55 

3.16 

2.93 

2.77 

2.66 

2.58 

2.51 

2.46 

2.41 

2.37 

2.34 

2.31 

T nC) 

i ->7 

2.25 

2.23 


19 

4.38 

3.52 

3.13 

2.90 

2.74 

2.63 

2.54 

2.48 

2.42 

2.38 

2.34 

2.31 

2.28 

2.26 

223 

2.21 

2.20 

2.18 

20 

4.35 

3.49 

3.10 

2.87 

2.71 

2.60 

2.51 

2.45 

2.39 

2.35 

2.31 

2.28 

2.25 

2.22 

2.20 

2.18 

2.17 

2.15 

21 

4.32 

3.47 

3.07 

2.84 

2.68 

2.57 

2.49 

2,42 

2.37 

2,32 

2.28 

2.25 

2.22 

2.20 

2.18 

2.16 

2.14 

2.12 

22 

4.30 

3.44 

3.05 

2.82 

2.66 

2.55 

2.46 

2.40 

2.34 

2.30 

2.26 

2.23 

2.20 

2.17 

2.15 

2.13 

2.1 1 

2.10 

23 

4.28 

3.42 

3.03 

2.80 

2.64 

2.53 

2.44 

2.37 

2.32 

2,27 

2.23 

2.20 

2.18 

2.15 

2.13 

2.11 

2.09 

2.07 

24 

4.26 

3.40 

3.01 

2.78 

2.62 

2.51 

2.42 

2.36 

2.30 

2.25 

2.21 

2.18 

2.15 

2.13 

2.11 

2.09 

2.07 

2.05 

25 

4.24 

3.39 

2.99 

2.76 

2.60 

2.49 

2.40 

2.34 

2.28 

2.24 

2.20 

2.16 

2.14 

2.11 

2.09 

2.07 

2.05 

2.04 

26 

4.23 

3.37 

2.98 

2.74 

2.59 

2.47 

2.39 

2.32 

2.27 

2.22 

2.18 

2.15 

2.12 

2.09 

2.07 

2.05 

2.03 

2.02 

27 

4.21 

3.35 

2.96 

2.73 

2.57 

2.46 

2.37 

2.31 

2.25 

2.20 

2.17 

2.13 

2.10 

2.08 

2.06 

2.04 

2.02 

2.00 

28 

4.20 

3.34 

2.95 

2.71 

2.56 

2.45 

2.36 

2.29 

2.24 

2.19 

2.15 

2.12 

2.09 

2.06 

2.04 

2.02 

2.00 

1.99 

29 

4.18 

3.33 

2.93 

2.70 

2.55 

2.43 

2.35 

2.28 

2,22 

2.18 

2.14 

2.10 

2.08 

2.05 

2.03 

2.01 

1.99 

1.97 

30 

4.17 

3.32 

292 

2.69 

2.53 

2.42 

2.33 

2.27 

2.21 

2.16 

2.13 

2.09 

2.06 

2.04 

2.01 

1.99 

1.98 

1.96 

32 

4.15 

3.29 

2.90 

2.67 

2.51 

2.40 

2.31 

2.24 

2.19 

2.14 

2.10 

2.07 

2.04 

2.01 

1,99 

1.97 

1.95 

1.94 

34 

4.13 

3.28 

2.88 

2.65 

2.49 

2.38 

229 

2.23 

2.17 

2.12 

2.08 

2.05 

2.02 

1.99 

1.97 

1.95 

1.93 

1.92 

36 

4.11 

3.26 

2.87 

2.63 

2.48 

2.36 

2.28 

2.21 

2.15 

2.11 

2.07 

2.03 

2.00 

1.98 

1.95 

1.93 

1.92 

1.90 

38 

4.10 

3.24 

2.85 

2.62 

2.46 

2.35 

2.26 

2.19 

2.14 

2.09 

2.05 

2.02 

1.99 

1.96 

1.94 

1.92 

1.90 

1.88 

40 

4.08 

3.23 

2.84 

2.61 

2.45 

2.34 

2.25 

2.18 

2.12 

2.08 

2.04 

2.00 

1.97 

1.95 

1.92 

1.90 

1.89 

1.87 

42 

4.07 

3.22 

2.83 

2.59 

2.44 

2.32 

2.24 

2.17 

2.11 

2.06 

2.03 

1.99 

1.96 

1.93 

1.91 

1.89 

1.87 

1.86 

44 

4.06 

3.21 

2.82 

2.58 

2.43 

2.31 

2.23 

2,16 

2.10 

2.05 

2,01 

1.98 

1.95 

1.92 

1.90 

1.88 

1.86 

1.84 

46 

4.05 

3.20 

2.81 

2.57 

2.42 

2.30 

2,22 

2.15 

2.09 

2.04 

2.00 

1.97 

1.94 

1.91 

1.89 

1.87 

1.85 

1.83 

48 

4.04 

3.19 

2.80 

2.57 

2.41 

2.29 

2.21 

2.14 

2.08 

2.03 

1.99 

1.96 

1.93 

1.90 

1.88 

1,86 

1.84 

1,82 

50 

4.03 

3.18 

2.79 

2.56 

2.40 

2 29 

2.20 

2.13 

2.07 

2.03 

1.99 

1.95 

1.92 

1.89 

1 . 87 - 

1.85 

1.83 

1.81 

55 

4.02 

3.16 

2.77 

2.54 

2.38 

2.27 

2.18 

2.11 

2.06 

2.01 

1.97 

1.93 

1.90 

1.88 

1.85 

1.83 

1.81 

1.79 

60 

4.00 

3.15 

2.76 

2.53 

2,37 

2.25 

2.17 

2.10 

2.04 

1.99 

1.95 

1.92 

1.89 

1.86 

1.84 

1,82 

1.80 

1.78 

65 

3.99 

3.14 

2.75 

2.51 

2.36 

2.24 

2.15 

2.08 

2.03 

1.98 

1.94 

1.90 

1.87 

1.85 

1.82 

1.80 

1.78 

1.76 

70 

3.98 

3.13 

2.74 

2.50 

2.35 

2.23 

2.14 

2.07 

2.02 

1.97 

1.93 

1.89 

1.86 

1.84 

1.81 

1.79 

1.77 

1.75 

80 

3.96 

3.11 

2.72 

2.49 

2.33 

2.21 

2.13 

2.06 

2.00 

1,95 

1.91 

1.88 

1.84 

1.82 

1.79 

1.77 

1.75 

1.73 

90 

3.95 

3.10 

2.71 

2.47 

2.32 

2.20 

2.11 

2.04 

1.99 

1.94 

1.90 

1.86 

1.83 

1.80 

1.78 

1.76 

1.74 

1.72 

100 

3.94 

3.09 

2.70 

2.46 

2.31 

2.19 

2.10 

2.03 

1.97 

1.93 

1.89 

1.85 

1.82 

1.79 

1.77 

1.75 

1.73 

1.71 

125 

3.92 

3.07 

2.68 

2.44 

2.29 

2.17 

2.08 

2.01 

1.96 

1.91 

1.87 

1.83 

1.80 

1.77 

1.75 

1.72 

1.70 

1.69 

150 

3.90 

3.06 

2.66 

2.43 

2.27 

2.16 

2.07 

2.00 

1.94 

1.89 

1.85 

1.82 

1.79 

1.76 

1.73 

1.71 

1.69 

1.67 

200 

3 . R 9 

3.04 

2.65 

2.42 

2.26 

2.14 

2.06 

1.98 

1.93 

1.88 

1.84 

1.80 

1.77 

1.74 

1.72 

! .69 

1.67 

1.66 

300 

3.87 

3.03 

2.63 

2.40 

2.24 

2.13 

2.04 

1.97 

1.91 

1.86 

1.82 

1.78 

1.75 

1.72 

1.70 

1.68 

1.66 

1.64 

500 

3.86 

3.01 

2.62 

2.39 

2.23 

2.12 

2.03 

1.96 

1.90 

1.85 

1.81 

1.77 

1.74 

1.71 

1.69 

1.66 

1.64 

1.62 

1000 

3.85 

3.00 

2.61 

2.38 

T 1T 

2.11 

2.02 

1.95 

1.89 

1.84 

1.80 

1.76 

1.73 

1.70 

1.68 

1.65 

1.63 

1.61 

yz 

3,84 

3.00 

2.60 

2.37 

2.21 

2.10 

2.01 

1.94 

1.88 

1.83 

1.79 

1.75 

1.72 

1.69 

1.67 

1.64 

1.62 

1.60 
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Table A.7 (suite) Valeurs f de la variable de Fisher-Snedecor F{u, ; v 2 ) ayant la probabilité 

0.05 d’ètre dépassées 



\' , l 

v 2 \ 

19 

20 

22 

24 

26 

28 

30 

35 

40 

45 

50 

60 

80 

100 

200 

500 

yz 

] 

248 

248 

249 

249 

249 

250 

250 

251 

251 

25 ! 

252 

252 

252 

253 

254 

254 

254 

n 

19.4 

19.4 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19.5 

19,5 

19.5 

19.5 

19.5 

19.5 

19.5 

3 

8.67 

8.66 

8.65 

8.64 

8.63 

8,62 

8.62 

8.60 

8.59 

8.59 

8.58 

8.57 

8.56 

8.55 

8.54 

8.53 

8.53 

4 

5.81 

5.80 

5.79 

5.77 

5.76 

5.75 

5.75 

5.73 

5.72 

5.71 

5.70 

5.69 

5.67 

5.66 

5.65 

5.64 

5.63 

5 

4.57 

4.56 

4.54 

4.53 

4.52 

4.50 

4.50 

4.48 

4.46 

4.45 

4.44 

4.43 

4.41 

4.41 

4.39 

4.37 

4.37 

6 

3.88 

3.87 

3.86 

3.84 

3.83 

3.82 

3.81 

3.79 

3.77 

3.76 

3.75 

3.74 

3.72 

3.71 

3.69 

3.68 

3.67 

7 

3.46 

3.44 

3.43 

3.41 

3.40 

3.39 

3.38 

3.36 

3.34 

3.33 

3.32 

3.30 

3.29 

3.27 

3.25 

3.24 

3.23 

8 

3.16 

3.15 

3.13 

3.12 

3.10 

3.09 

3.08 

3.06 

3.04 

3.03 

3.02 

3.01 

2.99 

2.97 

2.95 

2.94 

2.93 

9 

2.95 

2.94 

2.92 

2.90 

2.89 

2.87 

2.86 

2.84 

2.83 

2.81 

2.80 

2.79 

2.77 

2.76 

2.73 

2.72 

2.71 

10 

2.78 

2.77 

2.75 

2.74 

2.72 

2.71 

2.70 

2.68 

2.66 

2.65 

2.64 

2.62 

2.60 

2.59 

2.56 

2.55 

2.54 

II 

2.66 

2.65 

2.63 

2.61 

2.59 

2.58 

2.57 

2.55 

2.53 

2.52 

2.51 

2.49 

2.47 

2.46 

2.43 

2.42 

2.40 

12 

2.56 

2.54 

2.52 

2.51 

2.49 

2.48 

2.47 

2.44 

2.43 

2.41 

2.40 

2.38 

2.36 

2,35 

2.32 

2.31 

2.30 

13 

2.47 

2,46 

2.44 

2.42 

2.41 

2.39 

2.38 

2.36 

2.34 

2.33 

2.31 

2.30 

2.27 

2.26 

2.23 

2 22 

2.21 

14 

2.40 

2.39 

2.37 

2.35 

2.33 

2.32 

2.31 

2.28 

2 27 

2.25 

2.24 

2.22 

2.20 

2.19 

2.16 

2.14 

2.13 

15 

2.34 

2.33 

2.31 

2.29 

1.11 

2.26 

2.25 

2 22 

2.20 

2.19 

2.18 

2.16 

2.14 

2.12 

2.10 

2.08 

2.07 

16 

2.29 

2.28 

2.25 

2.24 

n 22 

2.21 

2.19 

2.17 

2.15 

2.14 

2.12 

2.11 

2.08 

2.07 

2.04 

2.02 

2.01 

17 

2.24 

i 

2.21 

2.19 

2.17 

2.16 

2.15 

2.12 

2.10 

2.09 

2.08 

2.06 

2.03 

2.02 

1.99 

1.97 

1.96 

18 

2.20 

2.19 

2.17 

2.15 

2.13 

2.12 

2.11 

2.08 

2.06 

2.05 

2.04 

2.02 

1.99 

1.98 

1.95 

1.93 

1.92 

19 

2.17 

2.16 

2.13 

2.11 

2.10 

2.08 

2.07 

2.05 

2.03 

2.01 

2.00 

1.98 

1.96 

1.94 

1.91 

1.89 

1.88 

20 

2.14 

2.12 

2.10 

2.08 

2.07 

2.05 

2.04 

2.01 

1.99 

1.98 

1.97 

1.95 

1.92 

1.91 

1.88 

1.86 

1.84 

21 

2.11 

2.10 

2.07 

2.05 

2.04 

2.02 

2.01 

1.98 

1.96 

1.95 

1.94 

1.92 

1.89 

1.88 

1.84 

1.82 

1.81 

22 

2.08 

2.07 

2.05 

2.03 

2.01 

2.00 

1.98 

1.96 

1.94 

1.92 

1.91 

1.89 

1.86 

1.85 

1.82 

1.80 

1.78 

23 

2.06 

2.05 

2.02 

2.00 

1.99 

1.97 

1.96 

1.93 

1.91 

1.90 

1.88 

1.86 

1.84 

1.82 

1.79 

1.77 

1.76 

24 

2.04 

2.03 

2.00 

1.98 

1.97 

1.95 

1.94 

1.91 

1.89 

1.88 

1.86 

1.84 

1.82 

1.80 

1.77 

1.75 

1.73 

25 

2.02 

2.01 

1.98 

1.96 

1.95 

1.93 

1.92 

1.89 

1.87 

1.86 

1.84 

1.82 

1.80 

1.78 

1.75 

1.73 

1.71 

26 

2.00 

1.99 

1.97 

1.95 

1.93 

1.91 

1.90 

1.87 

1.85 

1.84 

1.82 

1.80 

1.78 

1.76 

1.73 

1.71 

1.69 

27 

1.99 

1,97 

1.95 

1.93 

1.91 

1.90 

1.88 

1.86 

1.84 

1.82 

1.81 

1.79 

1.76 

1.74 

1.71 

1.69 

1.67 

28 

1.97 

1.96 

1.93 

1.91 

1.90 

1.88 

1.87 

1.84 

1.82 

1.80 

1.79 

1.77 

1.74 

1.73 

1.69 

1.67 

1.65 

29 

1.96 

1.94 

1.92 

1.90 

1.88 

1.87 

1.85 

1.83 

1.81 

1.79 

1.77 

1.75 

1.73 

1.71 

1.67 

1.65 

1.64 

30 

1.95 

1,93 

1.91 

1.89 

1.87 

1.85 

1.84 

1.81 

1.79 

1.77 

1.76 

1.74 

1.71 

1.70 

1.66 

1.64 

1.62 

32 

1.92 

1.91 

1.88 

1.86 

1.85 

1.83 

1.82 

1.79 

1.77 

1.75 

1.74 

1.71 

1.69 

1.67 

1.63 

1.61 

1.59 

34 

1.90 

1.89 

1.86 

1.84 

1.82 

1.80 

1,80 

1.77 

1.75 

1.73 

1.71 

1.69 

1.66 

1.65 

1.61 

1.59 

1.57 

36 

1.88 

1.87 

1.85 

1,82 

1.81 

1.79 

1.78 

1.75 

1.73 

1.71 

1.69 

1.67 

1.64 

1.62 

1.59 

1.56 

1.55 

38 

1.87 

1.85 

1.83 

1.81 

1.79 

1.77 

1.76 

1.73 

1.71 

1.69 

1.68 

1.65 

1.62 

1.61 

1.57 

1.54 

1.53 

40 

1.85 

1.84 

1.81 

1.79 

1.77 

1.76 

1.74 

1.72 

1.69 

1.67 

1.66 

1.64 

1.61 

1.59 

1.55 

1.53 

1.51 

42 

1.84 

1.83 

1.80 

1.78 

1.76 

1.74 

1.73 

1.70 

1.68 

1.66 

1.65 

1.62 

1.59 

1.57 

1.53 

1.51 

1.49 

44 

1.83 

1.81 

1.79 

1.77 

1.75 

1.73 

1.72 

1.69 

1.67 

1.65 

1.63 

1.61 

1.58 

1.56 

1.52 

1.49 

1.48 

46 

1.82 

1.80 

1.78 

1.76 

1.74 

1.72 

1.71 

1.68 

1.65 

1.64 

1.62 

1.60 

1.57 

1.55 

1.51 

1.48 

1.46 

48 

1.81 

1.79 

1.77 

1.75 

1.73 

1.71 

1.70 

1.67 

1.64 

1.62 

1.61 

1.59 

1.56 

1.54 

1.49 

1.47 

1.45 

50 

1.80 

1.78 

1.76 

1.74 

1.72 

1.70 

1.69 

1.66 

1.63 

1.61 

1,60 

1.58 

1.54 

1.52 

1.48 

1.46 

1.44 

55 

1.78 

1.76 

1.74 

1.72 

1.70 

1.68 

1.67 

1.64 

1.61 

1.59 

1.58 

1.55 

1.52 

1.50 

1.46 

1.43 

1.41 

60 

1.76 

1.75 

1.72 

1.70 

1.68 

1.66 

1.65 

1.62 

1.59 

1.57 

1.56 

1.53 

1.50 

1.48 

1.44 

1 . 4 ! 

1.39 

65 

1.75 

1.73 

1.71 

1.69 

1.67 

1.65 

1.63 

1.60 

1.58 

1.56 

1.54 

1.52 

1.49 

1.46 

1.42 

1.39 

1.37 

70 

1.74 

1.72 

1.70 

1.67 

1.65 

1.64 

1.62 

1.59 

1.57 

1.55 

1.53 

1.50 

1.47 

1.45 

1.40 

1.37 

1.35 

80 

1.72 

1.70 

1.68 

1.65 

1.63 

1.62 

1.60 

1.57 

1.54 

1.52 

1 . 51 

1.48 

1.45 

1.43 

1.38 

1.35 

1.32 

90 

1.70 

1.69 

1.66 

1.64 

1.62 

1.60 

1.59 

1.55 

1.53 

1.51 

1.49 

1.46 

1.43 

1.41 

1.36 

1.32 

1.30 

100 

1.69 

1.68 

1.65 

1.63 

1.61 

1.59 

1.57 

1.54 

1.52 

1.49 

1.48 

1.45 

1.41 

1.39 

1.34 

1.31 

1.28 

125 

1.67 

1.65 

1.63 

1.60 

1.58 

1.57 

1.55 

1.52 

1.49 

1.47 

1.45 

1.42 

1.39 

1.36 

1.31 

1.27 

1.25 

150 

1.66 

1.64 

1.61 

1.59 

1.57 

1.55 

1.53 

1.50 

1.48 

1.45 

1.44 

1.41 

1.37 

1.34 

1.29 

1.25 

1.22 

200 

1.64 

1.62 

1.60 

1.57 

1.55 

1.53 

1.52 

1.48 

1.46 

1.43 

1.41 

1.39 

1.35 

1.32 

1.26 

1.22 

1.19 

300 

1.62 

1.61 

1.58 

1.55 

1.53 

1.51 

1.50 

1.46 

1.43 

1.41 

1.39 

1.36 

1.32 

1.30 

1.23 

1.19 

1.15 

500 

1.61 

1.59 

1.56 

1.54 

1.52 

1.50 

1.48 

1.45 

1.42 

1.40 

1.38 

1.34 

1.30 

1.28 

1.21 

1.16 

1.11 

1000 

1.60 

1,58 

1.55 

1.53 

1.51 

1.49 

1.47 

1.44 

1.41 

1.38 

1.36 

1.33 

1.29 

1.26 

1.19 

1.13 

1.08 

y :- 

1.59 

1.57 

1.54 

1.52 

1.50 

1.48 

1.46 

1.42 

1.39 

1.37 

1.35 

1.32 

1.27 

1.24 

1.17 

l.ll 

1,00 
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Table A.7 ( su / te ) Valeurs f de la variable de Fisher - Snedecor F ( v t ; p 2 ) ayant la 
PROBABILITÉ 0.01 D’ÊTRE DÉPASSÉES 



-X 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

! 5 

16 

17 

18 

1 

405 

500 

540 

563 

( L.es valeurs de la première ligne doivent être multipliées par 10 ) 

576 536 503 508 602 606 608 611 613 614 

616 

617 

618 

619 

2 

98.5 

99.0 

99.2 

99.2 

99.3 

99.3 

99.4 

99.4 

99.4 

99.4 

9 . 9.4 

99.4 

99.4 

99.4 

99,4 

99.4 

99.4 

99.4 

3 

34.1 

30.8 

29.5 

28.7 

28.2 

27.9 

27.7 

27.5 

27.3 

27.2 

27.1 

27.1 

27.0 

26.9 

26.9 

26.8 

26.8 

26.8 

4 

21.2 

18.0 

16.7 

16.0 

15.5 

15.2 

15.0 

14.8 

14.7 

14.5 

14.4 

14.4 

14.3 

14.2 

14.2 

14.2 

14.1 

14.1 

5 

16.3 

13.3 

12.1 

11.4 

11.0 

10.7 

10.5 

10.3 

10.2 

10.1 

9.96 

9.89 

9.82 

9.77 

9.72 

9.68 

9.64 

9.61 

6 

13.7 

10.9 

9.78 

9.15 

8.75 

8.47 

8.26 

8.10 

7.98 

7.87 

7.79 

7.72 

7.66 

7.60 

7.56 

7.52 

7.48 

7.45 

7 

12.2 

9.55 

8.45 

7.85 

7.46 

7.19 

6.99 

6.84 

6.72 

6.62 

6.54 

6.47 

6.41 

6.36 

6.31 

6.27 

6.24 

6.21 

8 

11.3 

8.65 

7.59 

7.01 

6.63 

6.37 

6.18 

6.03 

5.91 

5.81 

5.73 

5.67 

5.61 

5.56 

5.52 

5.48 

5.44 

5.41 

9 

10.6 

8.02 

6.99 

6,42 

6.06 

5.80 

5.61 

5,47 

5.35 

5.26 

5.18 

5.11 

5.05 

5.00 

4.96 

4.92 

4.89 

4,86 

m 

10.0 

7.56 

6.55 

5.99 

5.64 

5.39 

5.20 

5.06 

4.94 

4.85 

4.77 

4.71 

4.65 

4.60 

4.56 

4.52 

4.49 

4.46 

IL 

9.65 

7.21 

6.22 

5.67 

5.32 

5.07 

4.89 

4.74 

4.63 

4.54 

4,46 

4.40 

4.34 

4.29 

4.25 

4.21 

4.18 

4.15 

12 

9.33 

6.93 

5.95 

5.41 

5.06 

4.82 

4.64 

4.50 

4.39 

4.30 

4 22 

4.16 

4.10 

4.05 

4.01 

3.97 

3.94 

3.91 

13 

9.07 

6.70 

5.74 

5.21 

4.86 

4.62 

4.44 

4.30 

4.19 

4.10 

4.02 

3.96 

3.91 

3.86 

3.82 

3.78 

3.75 

3.72 

14 

8.86 

6.51 

5.56 

5.04 

4.70 

4.46 

4.28 

4.14 

4.03 

3.94 

3.86 

3.80 

3.75 

3.70 

3.66 

3.62 

3.59 

3.56 

15 

8.68 

6.36 

5.42 

4.89 

4.56 

4.32 

4.14 

4.00 

3.89 

3.80 

3.73 

3.67 

3.61 

3.56 

3.52 

3.49 

3.45 

3.42 

16 

8.53 

6.23 

5.29 

4.77 

4.44 

4.20 

4.03 

3.89 

3.78 

3.69 

3.62 

3.55 

3.50 

3.45 

3.41 

3.37 

3.34 

3.31 

17 

8.40 

6.11 

5.18 

4.67 

4.34 

4.10 

3.93 

3.79 

3.68 

3.59 

3.52 

3.46 

3.40 

3.35 

3.3 ! 

3.27 

3.24 

3.21 

18 

8.29 

6.01 

5.09 

4.58 

4.25 

4,01 

3.84 

3 . 7 ! 

3.60 

3.51 

3.43 

3.37 

3.32 

3.27 

3.23 

3.19 

3.16 

3.13 

19 

8.18 

5.93 

5.01 

4.50 

4.17 

3.94 

3.77 

3.63 

3.52 

3.43 

3,36 

3.30 

3.24 

3.19 

3.15 

3.12 

3.08 

3.05 

20 

8.10 

5.85 

4.94 

4.43 

4.10 

3.87 

3.70 

3.56 

3.46 

3.37 

3.29 

3.23 

3.18 

3.13 

3.09 

3.05 

3.02 

2.99 

21 

8.02 

5.78 

4.87 

4.37 

4.04 

3.81 

3.64 

3.51 

3.40 

3.31 

3.24 

3.17 

3.12 

3.07 

3.03 

2.99 

2.96 

2.93 

22 

7.95 

5.72 

4.82 

4.31 

3.99 

3.76 

3.59 

3.45 

3.35 

3.26 

3.18 

3.12 

3.07 

3.02 

2.98 

2.94 

2.91 

2.88 

23 

7.88 

5.66 

4.76 

4.26 

3.94 

3.71 

3.54 

3.41 

3.30 

3.21 

3.14 

3.07 

3.02 

2.97 

2.93 

2.89 

2.86 

2.83 

24 

7.82 

5.61 

4.72 

4.22 

3.90 

3.67 

3.50 

3.36 

3.26 

3.17 

3.09 

3.03 

2.98 

2.93 

2.89 

2.85 

2.82 

2.79 

25 

7.77 

5.57 

4.68 

4.18 

3.86 

3.63 

3.46 

3.32 

3.22 

3.13 

3.06 

2.99 

2.94 

2.89 

2.85 

2.81 

2.78 

2.75 

26 

7.72 

5,53 

4.64 

4.14 

3.82 

3.59 

3.42 

3.29 

3.18 

3.09 

3.02 

2.96 

2.90 

2.86 

2,82 

2.78 

2.74 

2.72 

27 

7.68 

5.49 

4 . 6 !) 

4.11 

3.78 

3.56 

3.39 

3.26 

3.15 

3.06 

2.99 

2.93 

2.87 

2.82 

2.78 

2.75 

2.71 

2.68 

28 

7.64 

5.45 

4.57 

4.07 

3.75 

3.53 

3.36 

3.23 

3.12 

3.03 

2.96 

2.90 

2.84 

2.79 

2.75 

2.12 

2.68 

2.65 

29 

7.60 

5.42 

4.54 

4.04 

3.73 

3.50 

3.33 

3.20 

3.09 

3.00 

2.93 

2.87 

2.81 

2.77 

2.73 

2.69 

2.66 

2.63 

30 

7.56 

5.39 

4.51 

4.02 

3.70 

3.47 

3.30 

3.17 

3.07 

2.98 

2.91 

2.84 

2.79 

2.74 

2.70 

2.66 

2.63 

2.60 

32 

7.50 

5.34 

4.46 

3.97 

3.65 

3.43 

3.26 

3.13 

3.02 

2.93 

2.86 

2.80 

2.74 

2.70 

2.66 

2.62 

2.58 

2.55 

34 

7.44 

5.29 

4.42 

3.93 

3.61 

3.39 

3 22 

3.09 

2.98 

2.89 

2.82 

2.76 

2.70 

2.66 

2.62 

2.58 

2.55 

2.51 

36 

7.40 

5.25 

4.38 

3.89 

3.57 

3.35 

3.18 

3.05 

2.95 

2.86 

2.79 

2.72 

2.67 

2.62 

2.58 

2.54 

2.51 

2.48 

38 

7.35 

5 . 2 ! 

4.34 

3.86 

3.54 

3.32 

3.15 

3.02 

2.92 

2.83 

2.75 

2.69 

2.64 

2.59 

2.55 

2.51 

2.48 

2.45 

40 

7.31 

5.18 

4.31 

3.83 

3.51 

3.29 

3.12 

2.99 

2.89 

2.80 

2.73 

2.66 

2.61 

2.56 

2.52 

2.48 

2.45 

2.42 

42 

7.28 

5.15 

4.29 

3.80 

3.49 

3.27 

3.10 

2.97 

2.86 

2.78 

2.70 

2.64 

2.59 

2.54 

2.50 

2.46 

2.43 

2.40 

44 

7.25 

5.12 

4.26 

3.78 

3.47 

3.24 

3.08 

2.95 

2.84 

2.75 

2.68 

2.62 

2.56 

2.52 

2.47 

2.44 

2.40 

2.37 

46 

7.22 

5.10 

4.24 

3.76 

3.44 

3.22 

3.06 

2.93 

2.82 

2.73 

2.66 

2.60 

2.54 

2.50 

2.45 

2.42 

2.38 

2.35 

48 

7.19 

5.08 

4.22 

3.74 

3.43 

3.20 

3.04 

2.91 

2.80 

2.72 

2.64 

2.58 

2.53 

2.48 

2.44 

2.40 

2.37 

2.33 

50 

7.17 

5.06 

4.20 

3.72 

3.41 

3.19 

3.02 

2.89 

2.79 

2.70 

2.63 

2.56 

2.51 

2,46 

2.42 

2.38 

2.35 

2.32 

55 

7.12 

5.01 

4.16 

3.68 

3.37 

3.15 

2.98 

2.85 

2.75 

2.66 

2.59 

2.53 

2.47 

2.42 

2.38 

2.34 

2.31 

2.28 

60 

7.08 

4.98 

4.13 

3.65 

3.34 

3.12 

2.95 

2.82 

2.72 

2.63 

2.56 

2.50 

2.44 

2.39 

2.35 

2.31 

2.28 

2.25 

65 

7.04 

4.95 

4.10 

3.62 

3.31 

3.09 

2.93 

2.80 

2.69 

2.61 

2.53 

2.47 

2.42 

2.37 

2.33 

229 

2.26 

2.23 

70 

7 . 0 ! 

4.92 

4.08 

3.60 

3.29 

3.07 

2.91 

2.78 

2.67 

2.59 

2.51 

2.45 

2.40 

2.35 

2.31 

221 

2.23 

2.20 

80 

6.96 

4.88 

4.04 

3.56 

3.26 

3.04 

2.87 

2.74 

2.64 

2.55 

2.48 

2.42 

2.36 

2.31 

2.27 

2.23 

2.20 

2.17 

90 

6.93 

4.85 

4.01 

3.54 

3.23 

3.01 

2.84 

2.72 

2.61 

2.52 

2.45 

2.39 

2.33 

2.29 

2.24 

2.21 

2.17 

2.14 

100 

6.90 

4.82 

3.98 

3.51 

3.21 

2.99 

2.82 

2.69 

2.59 

2.50 

2.43 

2.37 

2.31 

2.26 

222 

2.19 

2.15 

2.12 

125 

6.84 

4.78 

3.94 

3.47 

3.17 

2.95 

2.79 

2.66 

2.55 

2.47 

2.39 

2.33 

2.28 

2.23 

2.19 

2.15 

2.11 

2.08 

150 

6.81 

4.75 

3.92 

3.45 

3.14 

2.92 

2.76 

2.63 

2.53 

2.44 

2.37 

2.31 

2.25 

2.20 

2.16 

2.12 

2.09 

2.06 

200 

6.76 

4.71 

3.88 

3.41 

3.11 

2.89 

2.73 

2.60 

2.50 

2.41 

2.34 

221 

2.22 

2.17 

2.13 

2.09 

2.06 

2.02 

300 

6.72 

4.68 

3.85 

3.38 

3.08 

2.86 

2.70 

2.57 

2.47 

2.38 

2.31 

2.24 

2.19 

2.14 

2.10 

2.06 

2.03 

1.99 

500 

6.69 

4.65 

3.82 

3.36 

3.05 

2.84 

2.68 

2.55 

2.44 

2.36 

2.28 

222 

2.17 

2.12 

2.07 

2.04 

2.00 

1.97 

1000 

6.66 

4.63 

3.80 

3.34 

3.04 

2.82 

2.66 

2.53 

2.43 

2.34 

221 

2.20 

2.15 

2.10 

2.06 

2.02 

1.98 

1.95 

zc 

6.63 

4.61 

3.78 

3.32 

3.02 

2.80 

2.64 

2.51 

2.41 

2.32 

2.25 

2.18 

2.13 

2.08 

2.04 

2.00 

1.97 

1.93 
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Table A-7 (suite et fin ) Valeurs f de la variable de Fisher - Snedecor F ( v t ; m 2 ) ayant la 
PROBABILITÉ 0.0 I D’ÊTRE DÉPASSÉES 



■X 

19 

20 

22 

24 

26 

28 

30 

35 

40 

45 

50 

60 

80 

100 

200 

500 

•DÛ 

1 

620 

621 

622 

(Les valeurs de la première ligne doivent être multipliées par 101 

62 J 624 625 626 62 H 629 630 630 631 

633 

633 

635 

636 

637 

2 

99.4 

99.4 

99.5 

99.5 

99,5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

99.5 

3 

26.7 

26,7 

26.6 

26.6 

26.6 

26.5 

26.5 

26.5 

26.4 

26.4 

26.4 

26.3 

26.3 

26.2 

26.2 

26.1 

26.1 

4 

14.0 

14.0 

14.0 

13.9 

13.9 

13.9 

13.8 

13.8 

13.7 

13.7 

13.7 

13.7 

13.6 

13.6 

13.5 

13.5 

13.5 

5 

9.58 

9.55 

9.51 

9.47 

9.43 

9.40 

9.38 

9.33 

9.29 

9.26 

9.24 

9.20 

9.16 

9.13 

9.08 

9.04 

9.02 

6 

7.42 

7.40 

7.35 

7.31 

7.28 

7.25 

7.23 

7.18 

7.14 

7.11 

7.09 

7.06 

7.01 

6.99 

6.93 

6.90 

6.88 

7 

6.18 

6.16 

6.11 

6.07 

6.04 

6.02 

5.99 

5.94 

5.91 

5.88 

5.86 

5.82 

5.78 

5.75 

5.70 

5.67 

5.65 

8 

5.38 

5.36 

5.32 

5.28 

5.25 

5.22 

5.20 

5.15 

5.12 

5.09 

5.07 

5.03 

4.99 

4.96 

4.91 

4.88 

4.86 

O 

4.83 

4.81 

4.77 

4.73 

4.70 

4.67 

4.65 

4.60 

4.57 

4.54 

4.52 

4 48 

4,44 

4 -P 

4.36 

4.33 

4.31 

10 

4.43 

4 . 4 ! 

4.36 

4.33 

4.30 

4.27 

4.25 

4.20 

4.17 

4.14 

4.12 

4.08 

4.04 

4.01 

3.96 

3.93 

3.91 

il 

4.12 

4.10 

4.06 

4.02 

3.99 

3.96 

3.94 

3.89 

3.86 

3.83 

3.81 

3.78 

3.73 

3.71 

3.66 

3.62 

3.60 

12 

3.88 

3.86 

3.82 

3.78 

3.75 

3.72 

3.70 

3.65 

3.62 

3.59 

3.57 

3.54 

3.49 

3.47 

3.41 

3.38 

3.36 

13 

3.69 

3.66 

3.62 

3.59 

3.56 

3.53 

3.51 

3.46 

3.43 

3.40 

3.38 

3.34 

3.30 

3.27 

3.22 

3.19 

3.17 

14 

3.53 

3.51 

3.46 

3.43 

3.40 

3.37 

3.35 

3.30 

3.27 

3.24 

3.22 

3.18 

3.14 

3.11 

3.06 

3.03 

3.00 

15 

3.40 

3.37 

3.33 

3.29 

3.26 

3.24 

3.21 

3.17 

3.13 

3.10 

3.08 

3.05 

3.00 

2.98 
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2 . S 9 

2.87 

16 

3.28 

3.26 

3.22 

3.18 

3.15 

3.12 

3.10 

3.05 

3.02 

2.99 

2.97 

2.93 

2.89 

2.86 

2.81 

2.78 

2.75 

17 

3.18 

3.16 

3.12 

3.08 

3.05 

3.03 

3.00 

2.96 

2.92 

2.89 

2.87 

2,83 

2.79 

2.76 

2.71 

2.68 

2.65 

IR 

3.10 

3.08 

3.03 

3.00 

2.97 

2.94 

2,92 

2.87 

2.84 

2 . R 1 

2.78 

2.75 

2.70 

2.68 

2.62 

2.59 

2.57 

19 

3.03 

3.00 

2.96 

2.92 

2.89 

2.87 

2.84 

2.80 

2.76 

2.73 

2.71 

2.67 

2.63 

2.60 

2.55 

2,51 

2.49 

20 

2.96 

2.94 

2.90 

2.86 

2.83 

2.80 

2.78 

2.73 

2.69 

2.67 

2.64 

2.61 

2.56 

2.54 

2.48 

2.44 

2.42 

21 

2.90 

2.88 

2.84 

2.80 

2.77 

2.74 

2.72 

2.67 

2.64 

2,61 

2.58 

2.55 

2.50 

2.48 

2.42 

2.38 

2.36 

->2 

2.85 

2.83 

2.78 

2.75 

2.72 

2.69 

2.67 

2.62 

2.58 

2.55 

2.53 

2.50 

2.45 

2.42 

2.36 

2.33 

2.31 

23 

2.80 

2.78 

2.74 

2.70 

2.67 

2.64 

2.62 

2.57 

2.54 

2.51 

2.48 

2.45 

2.40 

2.37 

2.32 

2.28 

2.26 

24 

2.76 

2.74 

2.70 

2.66 

2.63 

2.60 

2.58 

2.53 

2.49 

2.46 

2.44 

2.40 

2.36 

2.33 

2.27 

2.24 

2.21 

25 

2.72 

2.70 

2.66 

2.62 

2.59 

2.56 

2.54 

2.49 

2.45 

2.42 

2.40 

2.36 

2,32 

2,2 ( ) 

2.23 

2.19 

2.17 

26 

2.69 

2.66 

2.62 

2.58 

2.55 

2.53 

2.50 

2.45 

2.42 

2.39 

2.36 

2.33 

2.28 

2.25 

2.19 

2.16 

2.13 

27 

2.66 

2.63 

2.59 

2.55 

2.52 

2.49 

2,47 

2.42 

2.38 

2.35 

2,33 

2.29 

2.25 

2.22 

2.16 

2.12 

2.10 

2 R 

2.63 

2.60 

2.56 

2.52 

2.49 

2.46 

2.44 

2.39 

2.35 

2.32 

2.30 

2.26 

2.22 

2.19 

2.13 

2.09 

2.06 

29 

2.60 

2.57 

2.53 

2.49 

2.46 

2.44 

2.41 

2.36 

2.33 

2,30 

2.27 

2.23 

2.19 

2.16 

2.10 

2.06 

2.03 

30 

2.57 

2.55 

2.51 

2.47 

2.44 

2.41 

2.39 

2.34 

2.30 

2,27 

2.25 

2.21 

2.16 

2.13 

2.07 

2.03 

2.01 

32 

2.53 

2.50 

2.46 

2.42 

2.39 

2.36 

2.34 

2.29 

2.25 

i 2 1 

2.20 

2.16 

2.11 

2,08 

2.02 

1.98 

1,96 

34 

2.49 

2.46 

2.42 

2.38 

2.35 


2.30 

2.25 

2.21 

2.18 

2.16 

2.12 

2.07 

2.(44 

1.98 

1.94 

1.91 

36 

2.45 

2.43 

2.38 

2.35 

2,32 

2.29 

2.26 

2.21 

2.17 

2.14 

2 . [2 

2.08 

2.03 

2.00 

1.94 

1.90 

1.87 

38 

2.42 

2.40 

2.35 

2.32 

2.28 

2.26 

2.23 

2.18 

2.14 

2.11 

2.09 

2.05 

2.00 

1.97 

1.90 

1.86 

1.84 

40 

2.39 

2.37 

2.33 

2.29 

2.26 

2.23 

2.20 

2.15 

2.11 

2.08 

2.06 

2.02 

1.97 

1.94 

1.87 

1.83 

1.80 

42 

2.37 

2.34 

2.30 

2.26 

2,23 

2.20 

2.18 

2.13 

2.09 

2.06 

2.03 

1.99 

1.94 

1.91 

J .85 

1.80 

1.78 

44 

2.35 

2.32 

2.28 

2,24 

2.21 

2.18 

2.15 

2.10 

2.06 

2.03 

2.01 

1.97 

1.92 

1.89 

1.82 

1.78 

1.75 

46 

2.33 

2.30 

2,26 

2,22 

2.19 

2.16 

2.13 

2.08 

2.04 

2.01 

1.99 

1.95 

1.90 

1.86 

1.80 

1.75 

1.73 

48 

2.31 

2.28 

2.24 

2.20 

2.17 

2.14 

2.12 

2.06 

2.02 

1.99 

1.97 

1.93 

1.88 

1.84 

1.78 

1.73 

1.70 

50 

2.29 

2.27 

2.22 

2.18 

2.15 

2.12 

2.10 

2.05 

2.01 

1.97 

1.95 

1.91 

1.86 

1.82 

1.76 

1.71 

1.68 

55 

2.25 

2.23 

2.18 

2.15 

2.11 

2.08 

2,06 

2.01 

1.97 

1.93 

1.91 

1.87 

1.81 

1.78 

1 . 7 ! 

1.67 

1.64 

60 

2.22 

2.20 

2.15 

2.12 

2.08 

2.05 

2.03 

1.98 

1.94 

1.90 

1.88 

1.84 

1.78 

1.75 

1.68 

1.63 

1.60 

65 

2.20 

2.17 

2.13 

2.09 

2,06 

2.03 

2.00 

1.95 

1.91 

1.88 

1.85 

1.81 

1.75 

1.72 

1.65 

1.60 

1.57 

70 

2.18 

2.15 

2.11 

2.07 

2.03 

2.01 

1.98 

1.93 

1.89 

1.85 

1.83 

1.78 

1.73 

1.70 

1.62 

1.57 

1.54 

80 

2.14 

2.12 

2.07 

2.03 

2.00 

1.97 

1.94 

1.89 

1.85 

1.81 

1.79 

1.75 

1.69 

1.66 

1.58 

1.53 

1.49 

90 

2.11 

2,09 

2.04 

2.00 

1.97 

1.94 

1.92 

1.86 

1.82 

1.79 

1.76 

1.72 

1.66 

1.62 

1.54 

1.49 

1.46 

100 

2.09 

2.07 

2.02 

1.98 

1.94 

1.92 

1.89 

1.84 

1.80 

1.76 

1.73 

1.69 

1.63 

1.60 

1.52 

1.47 

1.43 

125 

2.05 

2.03 

1.98 

1.94 

1.91 

1.88 

1.85 

1.80 

1.76 

1.72 

1.69 

1.65 

1.59 

1.55 

1.47 

1.41 

1.37 

150 

2.03 

2.00 

1.96 

1.92 

1.88 

1.85 

1.83 

1.77 

1.73 

1.69 

1.66 

1.62 

1.56 

1.52 

1.43 

1.38 

1.33 

200 

2.00 

1.97 

1.93 

1.89 

1.85 

1.82 

1.79 

1.74 

1.69 

1.66 

1,63 

1.58 

1.52 

1.48 

1.39 

1.33 

1.28 

300 

1.97 

1.94 

1.89 

1.85 

1.82 

1.79 

1.76 

1.71 

1.66 

1.62 

1.59 

1.55 

1.48 

1.44 

1.35 

1.28 

1.22 

500 

1.94 

1.92 

1.87 

1,83 

J .79 

1.76 

1.74 

1.68 

1.63 

1.60 

1.56 

1.52 

1.45 

1.41 

1.31 

1.23 

1.16 

1000 

1.92 

1,90 

1.85 

1.81 

1.77 

1.74 

1.72 

1.66 

1.61 

1.57 

1.54 

1.50 

1.43 

1.38 

1.28 

1.19 

1.11 

ac- 

1.90 

1.88 

1.83 

1.79 

1.76 

1.72 

1.70 

1.64 

1.59 

1.55 

1.52 

1.47 

1.40 

1.36 

1.25 

1.15 

1.00 
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Table A .8 Table de distribution de T (Loi de Student ) 
Valeurs de T ayant la probabilité P d'être dépassées en valeur absolue 



\p 

v\ 

0.90 

0,80 

0,70 

0.60 

0.50 

0,40 

0.30 

0.20 

0.10 

0.05 

0.02 

0.01 

0,001 

1 

0,158 

0,325 

0.510 

0.727 

1,000 

1,376 

1,963 

3.078 

6.314 

12,706 

31.821 

63.657 

636,619 

2 

0.142 

0,289 

0,445 

0,617 

0,816 

1,061 

1.386 

1.886 

2,920 

4,303 

6,965 

9,925 

31,598 

3 

0,137 

0.277 

0.424 

0,584 

0,765 

0,978 

1,250 

1.638 

2,353 

3,182 

4.541 

5,841 

12.929 

4 

0,134 

0,271 

0,414 

0,569 

0,741 

0,941 

1,190 

1,533 

2,132 

2,776 

3.747 

d.604 

8.610 

5 

0,132 

0.267 

0.408 

0.559 

0,727 

0,920 

1,156 

1.476 

2.015 

2,571 

3,365 

4,032 

6.869 

6 

0,131 

0,265 

0,404 

0,553 

0,718 

0,906 

1,134 

1,440 

1,943 

2,447 

3,143 

3,707 

5,959 

7 

0,130 

0,263 

0,402 

0.549 

0,71 1 

0.896 

1,119 

1.415 

1,895 

2.365 

2.998 

3,499 

5.408 

8 

0,130 

0,262 

0,399 

0,546 

0,706 

0,889 

1,108 

1,397 

1,860 

2,306 

2,896 

3,355 

5,041 

9 

0.129 

0.261 

0.398 

0,543 

0.703 

0.883 

1,100 

1,383 

1.833 

2.262 

2,821 

3.250 

4,781 

10 

0,129 

0.260 

0,397 

0.542 

0,700 

0,879 

1.093 

1,372 

1,812 

2,228 

2,764 

3.169 

4,587 

11 

0,129 

0,260 

0,396 

0,540 

0,697 

0,876 

1,088 

1,363 

1,796 

2,201 

2,718 

3,106 

4.437 

12 

0,128 

0.259 

0.395 

0,539 

0,695 

0.873 

1,083 

1.356 

1.782 

2,179 

2.681 

3,055 

4,318 

13 

0,128 

0,259 

0,394 

0,538 

0,694 

0,870 

1.079 

1,350 

1,771 

2,160 

2,650 

3,012 

4,221 

14 


0,258 

0,393 

0.537 

0,692 

0,868 

1,076 

1.345 

1,761 

2,145 

2,624 

2,977 

4,140 

15 

0,128 

0,258 

0,393 

0,536 

0,691 

0,866 

1.074 

1,341 

1,753 

2,131 

2,602 

2,947 

4,073 

16 

0,128 

0.258 

0,392 

0.535 

0,690 

0.865 

1,071 

1.337 

1,746 

2,120 

2,583 

2.921 

4.015 

17 

0,128 

0,257 

0.392 

0,534 

0.6S9 

0.863 

1.069 

1,333 

1,740 

2,110 

2,567 

2,898 

3,965 

18 

0.127 

0,257 

0,392 

0.534 

0,688 

0,862 

1,067 

1.330 

1.734 

2,101 

2,552 

2.878 

3.922 

19 

0,127 

0,257 

0,391 

0,533 

0,688 

0,861 

1,066 

1,328 

1,729 

2,093 

2,539 

2,861 

3,883 

20 

0.127 

0,257 

0,391 

0.533 

0,687 

0.860 

1,064 

1,325 

1.725 

2,086 

2.528 

2.845 

3,850 

21 

0.127 

0,257 

0.391 

0.532 

0.686 

0.859 

1.063 

1,323 

1.721 

2,080 

2.518 

2,831 

3,819 

22 

0,127 

0,256 

0,390 

0,532 

0,686 

0,858 

1,061 

1,321 

1,717 

2,074 

2,508 

2.819 

3,792 

23 

0,127 

0.256 

0.390 

0,532 

0,685 

0.858 

1,060 

1,319 

1.714 

2.069 

2.500 

2.807 

3,767 

24 

0,127 

0,256 

0,390 

0,531 

0,685 

0,857 

1.059 

1.318 

1,711 

2,064 

2,492 

2,797 

3,745 

25 

0.127 

0,256 

0,390 

0.531 

0,684 

0,856 

1,058 

1,316 

1,708 

2.060 

2.485 

2.787 

3.725 

26 

0,127 

0,256 

0,390 

0.531 

0.684 

0.856 

1,058 

1,315 

1,706 

2,056 

2,479 

2,779 

3,707 

27 

0,127 

0,256 

0,389 

0,531 

0,684 

0.855 

1,057 

1,314 

1,703 

2,052 

2,473 

2.771 

3.690 

28 

0,127 

0,256 

0,389 

0,530 

0.683 

0,855 

1.056 

1,313 

1,701 

2,048 

2,467 

2.763 

3,674 

29 

0,127 

0.256 

0,389 

0.530 

0,683 

0,854 

1,055 

1.311 

1.699 

2.045 

2.462 

2.756 

3.659 

30 

0,127 

0,256 

0.389 

0,530 

0,683 

0,854 

1,055 

1,310 

1,697 

2,042 

2,457 

2,750 

3,646 

40 

0,126 

0,255 

0,388 

0,529 

0,681 

0,851 

1,050 

1,303 

1.684 

2,021 

2,423 

2,704 

3,551 

80 

0,126 

0,254 

0,387 

0.527 

0.679 

0,848 

1,046 

1.296 

1.671 

2,000 

2.390 

2,660 

3,460 

120 

0,126 

0,254 

0,386 

0,526 

0,677 

0,845 

1.041 

1,289 

1,658 

1,980 

2,358 

2,617 

3,373 

oc 

0,126 

0,253 

0,385 

0,524 

0,674 

0.S42 

1.036 

1,282 

1,645 

1,960 

2.326 

2,576 

3.291 











Table A. 9 Valeurs critiques du coefficient de corrélation R d’un écuANTiLLON issu d’une population normale où p = 0 
Celle table donne les valeurs r telles que ^(1^1 > r) = a, v - n — 2 corrélation simple 
v = n — 2 — cl corrélation partielle avec cl variables Fixées 


a 

v \ 

0,1 

0,05 

0,01 

0,001 

a 

v 

0,1 

0,05 

0,0! 

0,001 

1 

0,9877 

0,9969 

0,9999 

1,0000 

25 

0,3233 

0,3809 

0,4869 

0,5974 

2 

9000 

9500 

9900 

0,9990 

26 

3172 

3739 

4785 

5880 

3 

8054 

8783 

9587 

9911 

27 

31 15 

3673 

4705 

5790 

4 

7293 

8114 

9172 

9741 

28 

3061 

3610 

4629 

5703 

5 

0,6694 

0,7545 

0,8745 

0,9509 

29 

3009 

3550 

4556 

5620 

6 

6215 

7067 

8343 

9249 

30 

0,2960 

0,3494 

0,4487 

0,5541 

7 

5822 

6664 

7977 

8983 

31 

2913 

3440 

4421 

5465 

8 

5494 

6319 

7646 

8721 

32 

2869 

3388 

4357 

5392 

9 

5214 

6021 

7348 

8471 

33 

2826 

3338 

4297 

5322 

10 

0,4973 

0,5760 

0,7079 

0,8233 

34 

2785 

3291 

4238 

5255 

11 

4762 

5529 

6835 

8010 

35 

0,2746 

0,3246 

0,4182 

0,5189 

12 

4575 

5324 

6614 

7800 

36 

2709 

3202 

4128 

5126 

13 

4409 

5139 

6411 

7604 

37 

2673 

3160 

4076 

5066 

14 

4259 

4973 

6226 

7419 

38 

2638 

3120 

4026 

5007 

15 

0,4124 

0,4821 

0,6055 

0,7247 

39 

2605 

3081 

3978 

4951 

16 

4000 

4683 

5897 

7084 

40 

0,2573 

0,3044 

0,3932 

0,4896 

17 

3887 

4555 

5751 

6932 

41 

2542 

3008 

3887 

4843 

18 

3783 

4438 

5614 

6788 

42 

2512 

2973 

3843 

4792 

19 

3687 

4329 

5487 

6652 

43 

2483 

2940 

3802 

4742 

20 

0,3598 

0,4227 

0,5368 

0,6524 

44 

2455 

2907 

3761 

4694 

21 

3515 

4132 

5256 

6402 

45 

0,2428 

0,2875 

0,372! 

0,4647 

22 

3438 

4044 

5151 

6287 

46 

2403 

2845 

3683 

4602 

23 

3365 

3961 

5052 

6177 

47 

2377 

2816 

3646 

4558 

24 

3297 

3882 

4958 

6073 

48 

2353 

2787 

3610 

4515 






Table A.9 (su/te) Valeurs critiques du coefficient de corrélation R d'un échantillon issu d’une population normale où p = 0 
Celle table donne les valeurs r telles que P(\R\ > r) = a, v = n — 2 corrélation simple 
v = ri — 2 — (I corrélation partielle avec d variables fixées 


' v '\cx 

V 

0,1 

0,05 

0,01 

0,001 


0,1 

0,05 

0,01 

0,001 

49 

2329 

2759 

3575 

4473 

75 

0,1889 

0,2242 

0,2919 

0,3678 

50 

0,2306 

0,2732 

0,3541 

0,4433 

76 

1876 

2227 

2900 

3655 

51 

2284 

2706 

3509 

4393 

77 

1864 

2213 

2882 

3633 

52 

2262 

2681 

3477 

4355 

78 

1852 

2199 

2864 

3611 

53 

2241 

2656 

3445 

4317 

79 

1841 

2185 

2847 

3590 

54 

2221 

2632 

3415 

4281 

80 

0,1829 

0,2172 

0,2830 

0,3569 

55 

0,2201 

0,2609 

0,3385 

0,4245 

81 

1818 

2159 

2813 

3548 

56 

2181 

2586 

3357 

4210 

82 

1807 

2146 

2796 

3527 

57 

2162 

2564 

3329 

4176 

83 

1796 

2133 

2780 

3507 

58 

2144 

2542 

3301 

4143 

84 

1786 

2120 

2764 

3488 

59 

2126 

2521 

3274 

4111 

85 

0,1775 

0,2108 

0,2748 

0,3468 

60 

0,2108 

0,2500 

0,3248 

0,4079 

86 

1765 

2096 

2733 

3449 

61 

2091 

2480 

3223 

4048 

87 

1755 

2084 

2717 

3430 

62 

2075 

2461 

3198 

4018 

88 

1745 

2072 

2702 

3412 

63 

2058 

2442 

3174 

3988 

89 

1735 

2061 

2688 

3394 

64 

2042 

2423 

3150 

3959 

90 

0,1726 

0,2050 

0,2673 

0,3376 

65 

0,2027 

0,2405 

0,3127 

0,3931 

91 

1716 

2039 

2659 

3358 

66 

2012 

2387 

3104 

3904 

92 

1707 

2028 

2645 

3341 

67 

1997 

2369 

3081 

3877 

93 

1698 

2017 

2631 

3324 

68 

1982 

2352 

3060 

3850 

94 

1689 

2006 

2617 

3307 

69 

1968 

2335 

3038 

3824 

95 

0,1680 

0,1996 

0,2604 

0,3291 

70 

0,1954 

0,2319 

0,3017 

0,3798 

96 

1671 

1986 

2591 

3274 

71 

1940 

2303 

2997 

3773 

97 

1663 

1976 

2578 

3258 

72 

1927 

2287 

2977 

3749 

98 

1654 

1966 

2565 

3242 

73 

1914 

2272 

2957 

3725 

99 

1646 

1956 

2552 

3227 

74 

1901 

2257 

2938 

3701 

100 

0,1638 

0,1946 

0,2540 

0,321 1 


Table A.9 (suite) Valeurs critiques du coefficient de corrélation R d’un échantillon issu d’une population normale où p = 0 
Cette table donne les valeurs r telles que / ï (|/?| > r) = a, v = n — 2 corrélation simple 
v = n — 2 — cl corrélation partielle avec cl variables fixées 


Nuï 

v 

0,1 

0,05 

0,01 

0,001 

^a 
v 

0,1 

0,05 

0,01 

0,001 

101 

0,1630 

0,1937 

0,2528 

0,3196 

128 

1449 

1723 

2252 

2854 


1622 

1927 

2515 

3181 

129 

1443 

1716 

2243 

2843 

103 

1614 

1918 

2504 

3166 

130 

0,1438 

0,1710 

0,2235 

0,2832 

104 

1606 

1909 

2492 

3152 

131 

1432 

1703 

2226 

2822 

105 

0,1599 

0,1900 

0,2480 

0,3138 

132 

1427 

1697 

2218 

2812 

106 

1591 

1891 

2469 

3123 

133 

1422 

1690 

2210 

2801 


1584 

1882 

2458 

3109 

134 

1416 

1684 

2202 

2791 

108 

1577 

1874 

2447 

3095 

135 

0,1411 

0,1678 

0,2194 

0,2781 


1569 

1865 

2436 

3082 

136 

1406 

1672 

2186 

2771 


0,1562 

0,1857 

0,2425 

0,3069 

137 

1401 

1666 

2178 

2762 

111 

1555 

1848 

2414 

3055 

138 

1396 

1660 

2170 

2752 

112 

1548 

1840 

2404 

3042 

139 

1391 

1654 

2163 

2742 

113 

1542 

1832 

2393 

3029 

140 

0,1386 

0,1648 

0,2155 

0,2733 

114 

1535 

1824 

2383 

3017 

141 

1381 

1642 

2148 

2724 

115 

0,1528 

0,1816 

0,2373 

0,3004 

142 

1376 

1637 

2140 

2714 

116 

1522 

1809 

2363 

2992 

143 

1371 

1631 

2133 

2705 

117 

1515 

1801 

2353 

2979 

144 

1367 

1625 

2126 

2696 

118 

1509 

1793 

2343 

2967 

145 

0,1362 

0,1620 

0,2118 

0,2687 

119 

1502 

1786 

2334 

2955 

146 

1357 

1614 

21 11 

2678 

120 

0,1496 

0,1779 

0,2324 

0,2943 

147 

1353 

1609 

2104 

2669 

121 

1490 

1771 

2315 

2932 

148 

1348 

1603 

2097 

2660 

122 

1484 

1764 

2305 

2920 

149 

1344 

1598 

2090 

2652 

123 

1478 

1757 

2296 

2909 

150 

0,1339 

0,1593 

0,2083 

0,2643 

124 

1472 

1750 

2287 

2897 

151 

1335 

1587 

2077 

2635 

125 

0,1466 

0,1743 

0,2278 

0,2886 

152 

1330 

1582 

2070 

2626 

126 

1460 

1736 

2269 

2875 

153 

1326 

1577 

2063 

2618 

127 

1455 

1730 

2261 

2864 

154 

1322 

1572 

2057 

2610 




Table A.9 (suite et fin) Valeurs critiques du coefficient de corrélation R d’un échantillon issu d'une population normale où p = 0 
Celte table donne les valeurs r telles que P(\R j > /■) = a, v — n — 2 corrélation simple 
v = n — 2 — d corrélation partielle avec d variables fixées 


Cï 

V \ 

0,1 

0,05 

0,01 

0,001 

v 

0.1 

0,05 

0,01 

0,001 

155 

0,1318 

0,1567 

0.2050 

0,2602 

178 

1230 

1463 

1915 

2433 

156 

1313 

1562 

2044 

2594 

179 

1227 

1459 

1910 

2426 

157 

1309 

1557 

2037 

2586 

180 

0,1223 

0,1455 

0,1905 

0,2420 

158 

1305 

1552 

2031 

2578 

181 

1220 

1451 

1900 

2413 

159 

1301 

1547 

2025 

2570 

182 

1216 

1447 

1895 

2407 

160 

0,1297 

0,1543 

0,2019 

0,2562 

183 

1213 

1443 

1890 

2400 

161 

1293 

1538 

2012 

2554 

184 

1210 

1439 

1885 

2394 

162 

1289 

1533 

2006 

2547 

185 

0,1207 

0,1435 

0,1880 

0,2388 

163 

1285 

1529 

2000 

2539 

186 

1203 

1432 

1874 

2381 

164 

1281 

1524 

1994 

2532 

187 

1200 

1428 

1870 

2375 

165 

0,1277 

0,1519 

0,1988 

0,2524 

188 

1197 

1424 

1865 

2369 

166 

1273 

1515 

1982 

2517 

189 

1194 

1420 

1860 

2363 

167 

1270 

1510 

1977 

2510 

190 

0,1191 

0,1417 

0,1855 

0,2357 

168 

1266 

1506 

1971 

2502 

191 

1188 

1413 

1850 

2351 

169 

1262 

1501 

1965 

2495 

192 

1 iS4 

1409 

1845 

2345 

170 

0,1258 

0,1497 

0,1959 

0,2488 

193 

1181 

1406 

1841 

2339 

171 

1255 

1493 

1954 

2481 

194 

1178 

1402 

1836 

2333 

172 

1251 

1488 

1948 

2474 

195 

0,1175 

0,1399 

0,1831 

0,2327 

173 

1248 

1484 

1943 

2467 

196 

1172 

1395 

1827 

2321 

174 

1244 

1480 

1937 

2460 

197 

1169 

1391 

1822 

2316 

175 

0,1240 

0,1476 

0,1932 

0,2453 

198 

1166 

1388 

1818 

2310 

176 

1237 

1471 

1926 

2446 

199 

1164 

1384 

1813 

2304 

177 

1233 

1467 

1921 

2440 

200 

0,1 [61 

0,1381 

0,1809 

0,2299 


I 

Vv + 1 


Pour v > 200 on admet que r est une réalisation d’une variable de Laplace-Gauss d’espérance nulle et d’écart-type 



Echelle des p (coefficient de corrélation de la population) 
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Table A.9 fais Intervalles de confiance pour le coefficient de corrélation 
(Niveau de confiance .95) 


- 1.0 - 0.9 - 0.8 - 0.7 - 0.6 - 0.5 - 0.4 - 0.3 - 0.2 - 0.1 0 + 0-1 + 0.2 + 0.3 + 0.4 + 0.5 + 0.6 + 0.7 + 0.8 + 0.9 + 1.0 



Échelle des r (coefficient de corrélation de l'échantillon) 

Les nombres sur les courbes correspondent aux tailles d'échantillon 




Table A. 10 Table de correspondance entre r et z 
(Corrélation transformée de R. A. Fisher) 


exp(lv) — 1 
exp(lv) + 1 



0,00 

0,01 

0,02 

0,03 

0.04 

0.0 

0,0000 

0,0100 

0,0200 

0.0300 

0,0400 

0.1 

0,0997 

0,1096 

0,1194 

0,1293 

0,1391 

0.2 

0,1974 

0,2070 

0,2165 

0.2260 

0,2355 

0,3 

0,2913 

0,3004 

0,3095 

0.3185 

0,3275 

0.4 

0,3800 

0,3885 

0,3969 

0,4053 

0.4136 

0,5 

0,4621 

0,4699 

0,4777 

0,4854 

0,4930 

0,6 

0,5370 

0,5441 

0.5511 

0,5580 

0,5649 

0,7 

0,6044 

0,6107 

0,6169 

0,6231 

0,6291 

0,8 

0,6640 

0,6696 

0,6751 

0,6805 

0,6858 

0,9 

0,7163 

0,7211 

0,7259 

0,7306 

0,7352 

1,0 

0.7616 

0.7658 

0,7699 

0,7739 

0,7779 

1.1 

0,8005 

0,8041 

0,8076 

0,8110 

0,8144 

1,2 

0,8337 

0,8367 

0,8397 

0,8426 

0.8455 

1,3 

0,8617 

0,8643 

0,8668 

0,8692 

0,8717 

1,4 

0,8854 

0.8875 

0,8896 

0,8917 

0.8937 

1,5 

0,9051 

0.9069 

0,9087 

0,9104 

0,9121 

1,6 

0,9217 

0,9232 

0,9246 

0,9261 

0,9275 

1,7 

0,9354 

0,9336 

0,9379 

0,9391 

0,9402 

1,8 

0.9468 

0,94783 

0,94884 

0,94983 

0,95080 

1,9 

0,95624 

0,95709 

0,95792 

0,95873 

0,95953 

2,0 

0,96403 

0,96473 

0.96541 

0,96609 

0,96675 

2,1 

0,97045 

0,97103 

0,97159 

0,97215 

0,97269 

2,2 

0,97574 

0,97622 

0,97668 

0,97714 

0,97752 

2,3 

0,98010 

0,98049 

0,98087 

0,98124 

0,98161 

2,4 

0,98367 

0,98399 

0,98431 

0.98462 

0,98492 

2,5 

0.98661 

0,98688 

0,98714 

0,98739 

0,98764 

2,6 

0,98903 

0,98924 

0,98945 

0,98966 

0.98987 

2,7 

0,99101 

0,99118 

0,99136 

0,99153 

0.99170 

2,8 

0,99263 

0,99278 

0,99292 

0.99306 

0,99320 

2.9 

0.99396 

0,99408 

0,99420 

0,9943 1 

0,99443 


0,05 0.06 0,07 0.08 0,09 

0.0500 0,0599 0,0699 0,0798 0,0898 

0,1489 0,1586 0,1684 0,1781 0,1877 

0,2449 0,2548 0,2636 0,2729 0.2821 

0.3364 0,3452 0.3540 0.3627 0.3714 

0,4219 0.4301 0,4382 0,4462 0,4542 

0,5005 0,5080 0,5154 0,5227 0,5299 

0,5717 0,5784 0,5850 0,5915 0,5980 

0.6351 0.6411 0,6469 0,6527 0,6584 

0,6911 0,6963 0,7014 0,7064 0,7114 

0,7398 0.7443 0,7487 0,7531 0,7574 

0,7818 0,7857 0.7895 0,7932 0,7969 

0,8178 0,8210 0,8243 0,8275 0,8306 

0,8483 0.8511 0,8538 0,8565 0,8591 

0,8741 0,8764 0,8787 0,8810 0,8832 

0,8957 0,8977 0.8996 0,9015 0,9033 

0,9138 0,9154 0,9170 0,9186 0,9201 

0,9289 0,9302 0,9316 0,9329 0,9341 

0,9414 0,9425 0,9436 0,9447 0,9458 

0,95175 0,95268 0.95359 0,95449 0,95537 

0,96032 0,96109 0,96185 0,96259 0,96331 

0,96739 0,96803 0,96865 0,96926 0,96986 

0,97323 0,97375 0,97426 0,97477 0,97526 

0,97803 0,97846 0,97888 0,97929 0,97970 

0.98197 0,98233 0,98267 0,98301 0,98335 

0,98522 0,98551 0,98579 0,98607 0.98635 

0,98788 0,98812 0,98835 0,98858 0.98881 

0,99007 0,99026 0,99045 0,99064 0,99083 

0,99185 0,99202 0,99218 0,99233 0,99248 

0,99333 0,99346 0,99359 0,99372 0.99384 

0,99454 0,99464 0,99475 0,99485 0,99495 
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Table A.l I Table du coefficient de corrélation des rangs de Spearman 

ENTRE DE DEUX VARIABLES INDÉPENDANTES 
Valeurs r de R ayant une probabilité a d’être dépassée en valeur absolue 
P(\ R,\> r) = a. 


ll\ 

0.50 ( 

).20 

0.10 

0.05 

0.02 

0.01 

0.005 

0.002 

0.001 

4 

0.600 

1 

O 

O 

O 

1.000 







5 

0.500 

0 

.800 

0.900 

1.000 

1.000 





6 

0.371 

0 

.657 

0.829 

0.886 

0.943 

1.000 

1.000 



7 

0.321 

0 

.571 

0.714 

0.786 

0.893 

0.929 

0.964 

1.000 

1.000 

8 

0.310 

0 

.524 

0.643 

0.738 

0.833 

0.881 

0.905 

0.952 

0.976 

9 

0.267 

0 

.483 

0.600 

0.700 

0.783 

0.833 

0.867 

0.917 

0.933 

10 

0.248 

0 

.455 

0.564 

0.648 

0.745 

0.794 

0.830 

0.879 

0.903 

11 

0.236 

0 

.427 

0.536 

0.618 

0.709 

0.755 

0.800 

0.845 

0.873 

12 

0.224 

0 

.406 

0.503 

0.587 

0.671 

0.727 

0.776 

0.825 

0.860 

13 

0.209 

o 

.385 

0.484 

0.560 

0.648 

0.703 

0.747 

0.802 

0.835 

14 

0.200 

0 

.367 

0.464 

0.538 

0.622 

0.675 

0.723 

0.776 

0.811 

15 

0.189 

0 

.354 

0.443 

0.521 

0.604 

0.654 

0.700 

0.754 

0.786 

16 

0.182 

0 

.341 

0.429 

0.503 

0.582 

0.635 

0.679 

0.732 

0.765 

17 

0.176 

0 

.328 

0.414 

0.485 

0,566 

0.615 

0.662 

0.713 

0.748 

ts 

0.170 

0 

.317 

0.401 

0.472 

0.550 

0.600 

0.643 

0.695 

0.728 

19 

0.165 

0 

.309 

0.391 

0.460 

0.535 

0.584 

0.628 

0.677 

0.712 

20 

0.161 

0 

.299 

0.380 

0.447 

0.520 

0.570 

0.612 

0.662 

0.696 

21 

0.156 

0 

.292 

0.370 

0.435 

0.508 

0.556 

0.599 

0.648 

0.681 

22 

0.152 

0 

.284 

0.361 

0.425 

0.496 

0.544 

0.586 

0.634 

0.667 

23 

0.148 

0 

.278 

0.353 

0.415 

0.486 

0.532 

0.573 

0.622 

0.654 

24 

0.144 

0 

.271 

0.344 

0.406 

0.476 

0.521 

0.562 

0.610 

0.642 

25 

0.142 

0 

.265 

0,337 

0.398 

0.466 

0.511 

0.551 

0.598 

0.630 

26 

0.138 

0 

.259 

0.331 

0.390 

0.457 

0.501 

0.541 

0.587 

0.619 

27 

0.136 

0 

.255 

0.324 

0.382 

0.448 

0.491 

0.531 

0.577 

0.608 

28 

0.133 

0 

.250 

0.317 

0.375 

0.440 

0.483 

0.522 

0.567 

0.598 

29 

0.130 

0 

.245 

0.312 

0.368 

0.433 

0.475 

0.513 

0.558 

0.589 

30 

0.128 

0 

.240 

0.306 

0.362 

0.425 

0.467 

0.504 

0.549 

0.580 

31 

0.126 

0 

.236 

0.301 

0.356 

0.418 

0.459 

0.496 

0.541 

0.571 

32 

0.124 

0 

.232 

0.296 

0.350 

0.412 

0.452 

0.489 

0.533 

0.563 

33 

0.121 

0 

.229 

0.291 

0.345 

0.405 

0.446 

0.482 

0.525 

0.554 

34 

0.120 

0 

.225 

0.287 

0.340 

0.399 

0.439 

0.475 

0.517 

0.547 

35 

0.118 

0 

.222 

0.283 

0.335 

0.394 

0.433 

0.468 

0.510 

0.539 

36 

0.116 

0 

.219 

0.279 

0.330 

0.388 

0.427 

0.462 

0.504 

0.533 

37 

0.114 

0 

.216 

0.275 

0.325 

0.383 

0.421 

0.456 

0.497 

0.526 

38 

0.113 

0 

.212 

0.271 

0.321 

0.378 

0.415 

0.450 

0.491 

0.519 

39 

0.111 

0 

.210 

0.267 

0.317 

0.373 

0.410 

0.444 

0.485 

0.513 

40 

0.110 

0 

.207 

0.264 

0.313 

0.368 

0.405 

0.439 

0.479 

0.507 
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Table A.l I (suite et fin ) Table du coefficient de corrélation des rangs 

DE SPEARMAN DE DEUX VARIABLES INDÉPENDANTES 
Valeurs r de 7? s ayant une probabilité a d’être dépassée en valeur absolue 
P(\R S \ > r) - a 


\ 

0.50 

0.20 

0.10 

0.05 

0.02 

0.01 

0.005 

0.002 

0.001 

41 

0.108 

0.204 

0.261 

0.309 

0.364 

0.400 

0.433 

0.473 

0.501 

42 

0.107 

0.202 

0.257 

0.305 

0.359 

0.395 

0.428 

0.468 

0.495 

43 

0.105 

0.199 

0.254 

0.301 

0.355 

0.391 

0.423 

0.463 

0.490 

44 

0.104 

0.197 

0.251 

0.298 

0.351 

0.386 

0.419 

0.458 

0.484 

45 

0.103 

0.194 

0.248 

0.294 

0.347 

0.382 

0.414 

0.453 

0.479 

46 

0.102 

0.192 

0.246 

0.291 

0.343 

0.378 

0.410 

0.448 

0.474 

47 

0.101 

0.190 

0.243 

0.288 

0.340 

0.374 

0.405 

0.443 

0.469 

48 

0.100 

0.188 

0.240 

0.285 

0.336 

0.370 

0.401 

0.439 

0.465 

49 

0.098 

0.186 

0.238 

0.282 

0.333 

0.366 

0.397 

0.434 

0.460 

50 

0.097 

0.184 

0.235 

0.279 

0.329 

0.363 

0.393 

0.430 

0.456 

52 

0.095 

0.180 

0.231 

0.274 

0.323 

0.356 

0.386 

0.422 

0.447 

54 

0.094 

0.177 

0.226 

0.268 

0.317 

0.349 

0.379 

0.414 

0.439 

56 

0.092 

0.174 

0.222 

0.264 

0.311 

0.343 

0.372 

0.407 

0.432 

58 

0.090 

0.171 

0.218 

0.259 

0.306 

0.337 

0.366 

0.400 

0.424 

60 

0.089 

0.168 

0.214 

0.255 

0.300 

0.331 

0.360 

0.394 

0.418 

62 

0.087 

0.165 

0.211 

0.250 

0.296 

0.326 

0.354 

0.388 

0.411 

64 

0.086 

0.162 

0.207 

0.246 

0.291 

0.321 

0.348 

0.3S2 

0.405 

66 

0.0S4 

0.160 

0.204 

0.243 

0.287 

0.316 

0.343 

0.376 

0.399 

68 

0.083 

0.157 

0.201 

0.239 

0.282 

0.311 

0.338 

0.370 

0.393 

70 

0.082 

0.155 

0.198 

0.235 

0.278 

0.307 

0.333 

0.365 

0.388 

72 

0.081 

0.153 

0.195 

0.232 

0.274 

0.303 

0.329 

0.360 

0.382 

74 

0.080 

0.151 

0.193 

0.229 

0.271 

0.299 

0.324 

0.355 

0.377 

76 

0.078 

0.149 

0.190 

0.226 

0.267 

0.295 

0.320 

0.351 

0.372 

78 

0.077 

0.147 

0.188 

0.223 

0.264 

0.291 

0.316 

0,346 

0.368 

80 

0.076 

0.145 

0.185 

0.220 

0.260 

0.287 

0.312 

0.342 

0.363 

82 

0.075 

0.143 

0.183 

0.217 

0.257 

0.284 

0.308 

0.338 

0.359 

84 

0.074 

0.141 

0.181 

0.215 

0.254 

0.280 

0.305 

0.334 

0.355 

86 

0.074 

0.139 

0.179 

0.212 

0.251 

0.277 

0.301 

0.330 

0.351 

88 

0.073 

0.138 

0.176 

0.210 

0.248 

0.274 

0.298 

0.327 

0.347 

90 

0.072 

0.136 

0.174 

0.207 

0.245 

0.271 

0.294 

0.323 

0.343 

92 

0.071 

0.135 

0.173 

0.205 

0.243 

0.268 

0.291 

0.319 

0.339 

94 

0.070 

0.133 

0.171 

0.203 

0.240 

0.265 

0.288 

0.316 

0.336 

96 

0.070 

0.132 

0.169 

0.201 

0.238 

0.262 

0.285 

0.313 

0.332 

98 

0.069 

0.130 

0.167 

0.199 

0.235 

0.260 

0.282 

0.310 

0.329 

100 

0.068 

0.129 

0.165 

0.197 

0.233 

0.257 

0.279 

0.307 

0.326 


Pour /i > 100 on admet que R s est distribué comme LGl 0 ; 

V in - 1 
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Table A. 12 Test de concordance de p classements 
(test du W de M. G. Kendall) 

Valeurs critiques w de W a a = 0.05 
P(W>w) = 0.05 


11 

3 

4 

5 

6 

3 

1 

0,750 

0,600 

0,500 

4 

0,822 

0,619 

0,500 

0,421 

5 

0,716 

0,553 

0,449 

0,377 

6 

0,660 

0,512 

0,418 

0,351 

7 

0,626 

0,484 

0,395 

0,332 

S 

0,595 

0,461 

0,378 

0,319 

9 

0,576 

0,447 

0,365 

0,307 

10 

0,560 

0.434 

0,354 

0,299 

11 

0,548 

0,425 

0,346 

0,287 

12 

0,535 

0,415 

0,336 

0,287 

13 

0,527 

0,409 

0,332 

0,280 

14 

0,520 

0,402 

0,327 

0,275 

15 

0,514 

0,395 

0,322 

0,272 

20 

0,49 

0,37 

0,30 

0,25 

40 

0,43 

0,33 

0,26 

0,22 

60 

0,41 

0,31 

0,25 

0,21 

100 

0,38 

0,29 

0,24 

0,20 

CG 

0,33 

0,25 

0,20 

0,17 


Pour p > 7 la quantité p(n — 1 ) VV est distribuée 
approximativement selon un x»-i- 



Table A. 1 3 Fonction de répartition de la statistique de Cramer-von Mises 




(2 i 


~ F(y 




(r;ï(x) - F(x)) 2 d F{x) 


F* est la fonction de répartition empirique de l’échantillon 
F est la fonction de répartition de la variable échantillonnée y,, y 2 , . . >'„ les valeurs de l’échantillon ordonné 

Celte table donne les valeurs c telles que : 1 - a = F(/ico~ < z) 


1 - a 


11 

0.99 

0.975 

0.95 

0.90 

0.85 

0.80 

0.75 

0.50 

0.25 

0.20 

0.15 

0.10 

0.05 

0.025 

0.01 

2 

0.55052 

0.48897 

0.42482 

0.34346 

0.28853 

0.24743 

0.21521 

0.12659 

0.08145 

0.07351 

0.06554 

0.05758 

0.04963 

0.04565 

0.04326 

3 

0.63976 

0.53316 

0.43938 

0.33786 

0.27963 

0.24169 

0.21339 

0.12542 

0.07683 

0,06886 

0.06092 

0.05287 

0.04355 

0.03777 ! 

0.03324 

4 

0.67017 

0.54200 

0.44199 

0.34183 

0.28337 

0.24260 

0.21173 

0.12405 

0.07494 

0.06681 

0.05895 

0.05093 

0.04147 

0.03537 

0.03013 

5 

0.68352 

0.55056 

0.44697 

0.34238 

0.28305 

0.24236 

0.21165 

0.12252 

0.07427 

0.0661 1 

0.05799 

0.04970 

0.04035 

0.03422 

0.02876 

6 

0.69443 

0.55572 

0.44911 

0.34352 

0.28331 

0.24198 

0.21110 

0.12200 

0.07352 

0.06548 

0.05747 

0.04910 

0.03960 

0.03344 

0.02794 

7 

0.70154 

0.55935 

0.45100 

0.34397 

0.28345 

0.24197 

0.21087 

0.12158 

0.07297 

0.06492 

0.05697 

0.04869 

0.03914 

0.03293 

0.02738 

8 

0.70912 

0.56327 

0.45285 

0.34462 

0.28358 

0.24187 

0.21066 

0.12113 

0.07254 

0.06448 

0.05650 

0.04823 

0.03876 

0.03256 

0.02706 

9 

0.71283 

0.56513 

0.45377 

0.34491 

0.28364 

0.24180 

0.21052 

0.12088 

0.07228 

0.06423 

0.05625 

0.04798 

0.03850 

0.03230 

0.02679 

10 

0.71582 

0.56663 

0.45450 

0.34514 

0.28368 

0.24175 

0.21041 

0.12069 

0.07208 

0.06403 

0.05605 

0.04778 

0.03830 

0.03209 

0.02657 

20 

0.72948 

0.57352 

0.45788 

0.34621 

0.28387 

0.24150 

0.20990 

0.11979 

0.07117 

0.06312 

0.05515 

0.04689 

0.03742 

0.03120 

0.02564 

50 

0.73784 

0.57775 

0.45996 

0.34686 

0.28398 

0.24134 

0.20960 

0.11924 

0.07062 

0.06258 

0.05462 

0.04636 

0.03690 

0.03068 

0.02512 

200 

0.74205 

0.57990 

0.46101 

0.34719 

0.28404 

0.24126 

0.20944 

0.11897 

0.07035 

0.06231 

0.05435 

0.04610 

0.03665 

0.03043 

0.02488 

1000 

0.74318 

0.58047 

0.46129 

0.34728 

0.28406 

0.24124 

0.20940 

0.11890 

0.07027 

0.06224 

0.05428 

0.04603 

0.03658 

0.03037 

0.02481 

GO 

0.74346 

0.58061 

0.46136 

0.34730 

0.28406 

0.24124 

0.20939 

0.11888 

0.07026 

0.06222 

0.05426 

0.04601 

0.03656 

0.03035 

0.02480 
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Table A. 14 Table du test de Kolmogorov-Smirnov 
D„ = sup | F*(x) - F(x) j 
Valeurs de d n telles que P = P(D n < cl„) 


II 

P = .80 

P = .90 

P = .95 

P - .98 

P = .99 

1 

.90000 

.95000 

.97500 

.99000 

.99500 

2 

.68377 

.77639 

.84189 

.90000 

.92929 

3 

.56481 

.63604 

.70760 

.78456 

.82900 

4 

.49265 

.56522 

.62394 

.68887 

.73424 

5 

.44698 

.50945 

.56328 

.62718 

.66853 

6 

.41037 

.46799 

.51926 

.57741 

.61661 

7 

.38148 

.43607 

.48342 

.53844 

.57581 

8 

.35831 

.40962 

.45427 

.50654 

.54179 

9 

.33910 

.38746 

.43001 

.47960 

.51332 

IQ 

.32260 

.36866 

.40925 

.45662 

.48893 

11 

.30829 

.35242 

.39122 

.43670 

.46770 

12 

.29577 

.33815 

.37543 

.41918 

.44905 

13 

.28470 

.32549 

.36143 

.40362 

.43247 

14 

.27481 

.31417 

.34890 

.38970 

.41762 

15 

.26588 

.30397 

.33760 

.37713 

.40420 

16 

.25778 

.29472 

.32733 

.36571 

.39201 

17 

.25039 

.28627 

.31796 

.35528 

.38086 

18 

.24360 

.27851 

.30936 

.34569 

.37062 

19 

.23735 

.27136 

.30143 

.33685 

.36117 

20 

.23156 

.26473 

.29408 

.32866 

.35241 

21 

.22617 

.25858 

.28724 

.32104 

.34427 

22 

.22115 

.25283 

.28087 

.31394 

.33666 

23 

.21645 

.24746 

.27490 

.30728 

.32954 

24 

.21205 

.24242 

.26931 

.30104 

.32286 

25 

.20790 

.23768 

.26404 

.29516 

.31657 

26 

.20399 

.23320 

.25907 

.28962 

.31064 

27 

.20030 

.22898 

.25438 

.28438 

.30502 

28 

.19680 

.22497 

.24993 

.27942 

.29971 

29 

.19348 

.22117 

.24571 

.27471 

.29466 

30 

.19032 

.21756 

.24170 

.27023 

.28987 

31 

.18732 

.21412 

.23788 

.26596 

.28530 

32 

.18445 

.21085 

.23424 

.26189 

.28094 

33 

.18171 

.20771 

.23076 

.25801 

.27677 

34 

.17909 

.20472 

.22743 

.25429 

27279 

35 

.17659 

.20185 

.22425 

.25073 

.26897 

36 

.17418 

.19910 

.22119 

.24732 

.26532 

37 

.17188 

.19646 

.21826 

.24404 

.26180 

38 

.16966 

.19392 

.21544 

.24089 

.25843 

39 

.16753 

.19148 

.21273 

.23786 

.25518 

40 

.16547 

.18913 

.21012 

.23494 

.25205 

41 

.16349 

.18687 

.20760 

.23213 

.24904 

42 

.16158 

.18468 

.20517 

.22941 

.24613 

43 

.15974 

.18257 

.20283 

.22679 

.24332 

44 

.15796 

. 18053 

.20056 

.22426 

.24060 

45 

.15623 

.17856 

.19837 

.22181 

.23798 

46 

.15457 

.17665 

.19625 

.21944 

.23544 

47 

.15295 

.17481 

.19420 

.21715 

.23298 

48 

.15139 

.17302 

.19221 

.21493 

.23059 

49 

.14987 

.17128 

.19028 

.21277 

.22828 

50 

.14840 

.16959 

.18841 

.21068 

.22604 
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Table A. 14 (suite et fin) Table du test de Kolmogorov-Smirnov 
D„ = sup | F*(x) - F(x) | 

Valeurs de cl„ telles que P = P{D n < d tl ) 

P — .80 P = .90 P = .95 P = .98 P = .99 


51 

52 

53 

54 

55 

56 

57 

58 

59 

60 

61 

62 

63 

64 

65 

66 

67 

68 

69 

70 

71 

72 

73 

74 

75 

76 

77 

78 

79 

80 

81 

82 

83 

84 

85 

86 

87 

88 

89 

90 

91 

92 

93 

94 

95 

96 

97 

98 

99 

100 

n > 100 


.14697 

.14558 

.14423 

.14292 

.14164 

.14040 

.13919 

.13801 

.13686 

.13573 

.13464 

.13357 

.13253 

.13151 

.13052 

.12954 

.12859 

.12766 

.12675 

.12586 

.12499 

.12413 

.12329 

.12247 

.12167 

.12088 

.12011 

.11935 

.11860 

.11787 

.11716 

.11645 

.11576 

.11508 

.11442 

.11376 

.11311 

.11248 

.11186 

.11125 

.11064 

.11005 

.10947 

.10889 

.10833 

.10777 

.10722 

.10668 

.10615 

.10563 

1.073/^ 


.16796 

.16637 

.16483 

.16332 

.16186 

.16044 

.15906 

.15771 

.15639 

.15511 

,15385 

.15263 

.15144 

.15027 

.14913 

.14802 

.14693 

.14587 

.14483 

.14381 

.14281 

.14183 

.14087 

.13993 

.13901 

.13811 

.13723 

.13636 

.13551 

.13467 

.13385 

.13305 

.13226 

.13148 

.13072 

.12997 

.12923 

.12850 

.12779 

.12709 

.12640 

.12572 

.12506 

.12440 

.12375 

.12312 

.12249 

.12187 

.12126 

.12067 

1.223/Vn 


.18659 

.18482 

.18311 

.18144 

.17981 

.17823 

.17669 

.17519 

.17373 

.17231 

.17091 

.16956 

.16823 

.16693 

.16567 

.16443 

.16322 

.16204 

.16088 

.15975 

.15864 

.15755 

.15649 

.15544 

.15442 

.15342 

.15244 

.15147 

.15052 

.14960 

.14868 
.14779 
.14691 
.14605 
.14520 
.14437 
.14355 
.14274 
.14195 
.14117 

.14040 

.13965 

.13891 

.13818 

.13746 

.13675 

.13606 

.13537 

.13469 

.13403 

1.358/Vn 


.20864 

.20667 

.20475 

.20289 

.20107 

.19930 

.19758 

.19590 

.19427 

.19267 

.19112 
.18960 
.18812 
.18667 
.18525 
.18387 
.18252 
.18119 
.17990 
.17863 

.17739 

.17618 

.17498 

.17382 

.17268 

.17155 

.17045 

.16938 

.16832 

.16728 

.16626 

.16526 

.16428 

.16331 

.16236 

.16143 

.16051 

.15961 

.15873 

.15786 

.15700 

.15616 

.15533 

.15451 

.15371 

.15291 

.15214 

.15137 

.15061 

.14987 

1.518/^/n 


.22386 

.22174 

.21968 

.21768 

.21574 

.21384 

.21199 

.21019 

.20844 

.20673 

.20506 

.20343 

.20184 

.20029 

.19877 

.19729 

.19584 

.19442 

.19303 

.19167 

.19034 

.18903 

.18776 

.18650 

.18528 

.18408 

.18290 

.18174 

.18060 

.17949 

.17840 

.17732 

.17627 

.17523 

.17421 

.17321 

.17223 

.17126 

.17031 

.16938 

.16846 

.16755 

.16666 

.16579 

.16493 

.16408 

.16324 

.16242 

.16161 

.16081 

1.629/Vn 
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Table A. 15 Valeurs critiques du coefficient d’asymétrie empirique 

D’un ÉCHANTILLON DE n OBSERVATIONS D’UNE VARIABLE DE LAPLACE-GAU5S 


P 


- SC-v,- - -v ) 3 

n ,=, 



a 



0.05 

0.01 

7 

1.018 

1.457 

8 

0.998 

1.452 

9 

0.977 

1.433 

10 

0.954 

1.407 

12 

0.910 

1.353 

15 

0.851 

1.272 

20 

0.772 

1.155 

25 

0.711 

1.061 

30 

0.662 

0.986 

35 

0.621 

0.923 

40 

0.587 

0.870 

45 

0.558 

0.825 

50 

0.534 

0.787 

60 

0.492 

0.723 

70 

0.459 

0.673 

80 

0.432 

0.631 

90 

0.409 

0.596 

100 

0.389 

0.567 

125 

0.350 

0.508 

150 

0.321 

0.464 

175 

0.298 

0.430 

200 

0.280 

0.403 

250 

0.251 

0.360 

300 

0.230 

0.329 


a 

n 

0.05 

0.01 

350 

0.213 

0.305 

B 


0.285 



0.269 

500 


0.255 

550 

0.171 

0.243 

600 

0.163 

0.233 

650 

0.157 

0.224 

700 

0.151 

0.215 

750 

0.146 

0.208 

800 

0.142 

0.202 

850 

0.138 

0.196 

900 

0.134 

0.190 

950 

0.130 

0.185 

1000 

0.127 

0.180 

1200 

0.116 

0.165 

1400 

0.107 

0.152 

1600 

0.100 

0.142 

1800 

0.095 

0.134 

2000 

0.090 

0.127 

2500 

0.080 

0.114 

3000 

0.073 

0.104 

3500 

0.068 

0.096 

4000 

0.064 

0.090 

4500 

0.060 

0.085 

5000 

0.057 

0.081 
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Table A. 17 Test de Durbin et Watson 
Valeurs critiques au seuil 5 % pour H 0 : p = 0 
p : nombre de variables explicatives 
n : nombre d’observations 


0 H 0 refusée I incertitude I H 0 acceptée 2 


n 

P = 

= 1 

P 

= 2 

P = 

3 

P 

= 4 

P 

= 5 

^inf 

^sup 

^inf 

f 4np 

^iiif 

f 4>ip 

d'\n( 

^4up 

^inf 

4i P 

15 

1.08 

1.36 

0.95 

1.54 

0.82 

1.75 

0.69 

1.97 


2.21 

16 

1.10 

1.37 

0.98 

1.54 

0.86 

1.73 

0.74 

1.93 


2.15 

17 

1.13 

1.38 

1.02 

1.54 

0.90 

1.71 

0.78 

1.90 

0.67 

2.10 

18 

1.16 

1.39 

1.05 

1.53 

0.93 

1.69 

0.82 

1.87 

0.71 

2.06 

19 

1.18 

1.40 

1.08 

1.53 

0.97 

1.68 

0.86 

1.85 

0.75 

2.02 

20 

1.20 

1.41 

1.10 

1.54 

1.00 

1.68 

0.90 

1.83 

0.79 

1.99 

21 

1.22 

1.42 

1.13 

1.54 

1.03 

1.67 

0.93 

1.81 

0.83 

1.96 

22 

1.24 

1.43 

1.15 

1.54 

1.05 

1.66 

0.96 

1.80 

0.86 

1.94 

23 

1.26 

1.44 

1.17 

1.54 

1.08 

1.66 

0.99 

1.79 

0.90 

1.92 

24 

1.27 

1.45 

1.19 

1.55 

1.10 

1.66 

1.01 

1.78 

0.93 

1.90 

25 

1.29 

1.45 

1.21 

1.55 

1.12 

1.66 

1.04 

1.77 

0.95 

1.89 

26 

1.30 

1.46 

1.22 

1.55 

1.14 

1.65 

1.06 

1.76 

0.98 

1.88 

27 

1.32 

1.47 

1.24 

1.56 

1.16 

1.65 

1.08 

1.76 

1.01 

1.86 

28 

1.33 

1.48 

1.26 

1.56 

1.18 

1.65 

1.10 

1.75 

1.03 

1.85 

29 

1.34 

1.48 

1.27 

1.56 

1.20 

1.65 

1.12 

1.74 

1.05 

1.84 

30 

1.35 

1.49 

1.28 

1.57 

1.21 

1.65 

1.14 

1.74 

1.07 

1.83 

31 

1.36 

1.50 

1.30 

1.57 

1.23 

1.65 

1.16 

1.74 

1.09 

1.83 

32 

1.37 

1.50 

1.31 

1.57 

1.24 

1.65 

1.18 

1.73 

1.11 

1.82 

33 

1.38 

1.51 

1.32 

1.58 

1.26 

1.65 

1.19 

1.73 

1.13 

1.81 

34 

1.39 

1.51 

1.33 

1.58 

1.27 

1.65 

1.21 

1.73 

1.15 

1.81 

35 

1.40 

1.52 

1.34 

1.58 

1.28 

1.65 

1.22 

1.73 

1.16 

1.80 

36 

1.41 

1.52 

1.35 

1.59 

1.29 

1.65 

1.24 

1.73 

1.18 

1.80 

37 

1.42 

1.53 

1.36 

1.59 

1.31 

1.66 

1.25 

1.72 

1.19 

1.80 

38 

1.43 

1.54 

1.37 

1.59 

1.32 

1.66 

1.26 

1.72 

1.21 

1.79 

39 

1.43 

1.54 

1.38 

1.60 

1.33 

1.66 

1.27 

1.72 

1.22 

1.79 

40 

1.44 

1.54 

1.39 

1.60 

1.34 

1.66 

1.29 

1.72 

1.23 

1.79 

45 

1.48 

1.57 

1.43 

1.62 

1.38 

1.67 

1.34 

1.72 

1.29 

1.78 

50 

1.50 

1.59 

1.46 

1.63 

1.42 

1.67 

1.38 

1.72 

1.34 

1.77 

55 

1.53 

1.60 

1.49 

1.64 

1.45 

1.68 

1.41 

1.72 

1,38 

1.77 

60 

1.55 

1.62 

1.51 

1.65 

1.48 

1.69 

1.44 

1.73 

1.41 

1.77 

65 

1.57 

1.63 

1.54 

1.66 

1.50 

1.70 

1.47 

1.73 

1.44 

1.77 

70 

1.58 

1.64 

1.55 

1.67 

1.52 

1.70 


1.74 

1.46 

1.77 

75 

1.60 

1.65 

1.57 

1.68 

1.54 

1.71 

1.51 

1.74 

1.49 

1.77 

80 

1.61 

1.66 

1.59 

1.69 

1.56 

1.72 

1.53 

1.74 

1.51 

1.77 

S 5 

1.62 

1.67 

1.60 

1.70 

1.57 

1.72 

1.55 

1.75 

1.52 

1.77 

90 

1.63 

1.68 

1.61 

1.70 

1.59 

1.73 

1.57 

1.75 

1.54 

1.78 

95 

1.64 

1.69 

1.62 

1.71 

1.60 

1.73 

1.58 

1.75 

1.56 

1.78 

100 

1.65 

1.69 

1.63 

1.72 

1.61 

1.74 

1.59 

1.76 

1.57 

1.78 
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AmTables usuelles 


Table A. 18 COEFFICIENTS POUR CALCULER L’ESPÉRANCE 
ET LA VARIANCE DE L’ÉCART-TYPE CORRIGÉ ET DE 
L’ÉTENDUE D’UN ÉCHANTILLON GAUSSIEN 


Il 

Cl 

ci i 

à. 

2 

0.7979 

1.128 

0.853 

3 

0.8862 

1.693 

0.888 

4 

0.9213 

2.059 

0.880 

5 

0.9400 

2.326 

0.864 

6 

0.9515 

2.534 

0.848 

7 

0.9594 

2.704 

0.833 

8 

0.9650 

2.847 

0.820 

9 

0.9693 

2.970 

0.808 

10 

0.9727 

3.078 

0.797 

11 

0.9754 

3.173 

0.787 

12 

0.9776 

3.258 

0.778 

13 

0.9794 

3.336 

0.770 

14 

0.9810 

3.407 

0.762 

15 

0.9823 

3.472 

0.755 


E(S*) = c A cf 

V(S*) = 

: ( 1 “ c 4 2 )ct 2 


E(R ) = cl 2 cr 

VC7?) = 

(c/ 3 cr) 2 


Voir chapitre 12 § 12 . 2 . 3 . 3 . 








Tableau B.l Paramètres des principales distributions discrètes 


Loi 


Espérance 

E(X) 


Variance 

V(X) 


Coefficient 
d’asymétrie y, 


Coefficient 
d’aplatissement y 2 


Binomiale $)(/t ; p) 
P{X = x) = C*p x q "~' 
X = 0, 1,2,..., n 


np 


npq 


q - p 


3 + 


1 ~ fyq 

npq 


Binomiale négative B (n ; p) 


P(X = .v-) = c;;;.:_,^i - p - 
= C-nP X <l~"~* 

q = \ + p 

X= 0, 1. 2.«= 


np 


npq 


P + g 
V npq 


3 + 


1 + 6pq 
npq 


Pascal Pa(// ; p) 

P(X = a) - C^'pV" 

X =//,//+ 1, . . OG p H- q — 1 


iiq_ 

1 

P~ 


in~q 


3 + 


p 2 + 6 q 


nq 


Hypergéométrique 
f/C( N, n , p) 

pr p»i- 

P(X = X) = ^=!L 


r n 




npq 


N - n 


N 


n - p 

'Jnpq 


.^4 

N - 2 \ 


/V- 1 
N - n 


(N - \)(N + 6) (A/ - 1 )N{N + l) 

3---:-H 


(/V - 2 )(N - 3) (N - n)(N - 2)(N - 3) 


.-Lf, 


N / n(n - V) 

6 - pq 3-- 

npq \ N + IV N 2 


Poisson $*(m) 

//;/ r 

P(X = a) = exp(—//;) I — 

X- 0, 1,2.oc 


1 

4m 


3 + 


Uniforme 

P(X = a) = - 
n 

X=l,2 . n 


n + 1 


n 2 - 1 

12 


1.8 - -=■ 


2.4 



Tableau B. 2 Paramètres des principales distributions continues 


Loi 

Espérance 

E(X) 

Variance 

V(X) 

Coefficient 
„ . - M-3 

d asymétrie 7 i- 7 

<r 

Coefficient 

„ , . _ Mm 

u aplatissement "y^ — 4 

Commue uniforme sur [0, IJ 

1/2 

1/12 

0 

1.8 

LG(/u ; tx) 

ni 

(T 2 

0 

3 

7r 

r 

r 

2/Vr 

3 -1- 6/r 

A'“ 

n 

2n 

Vs/ü 

3 -1- 12/h 

Student T n 


n/(n - 2) ,n 

0 

3 + 6/(ii - 4) (2) 

Bêla 1 (h, p) 

i 

n/(>i + p) 

HP 

2{p — n)y)n~' + p ~ 1 + [np)~ l 

(3(// + p 4- 1)(2(// + p) 2 -1- np(n -1- p - 6)) 

(n + p + l)(/i + p) 

n + p + 2 

np(n + p + 2 )(// + p + 3) 

Beta 11 (/j, p) 

n 

ii(ii + p - 1 ) 

j (p - 2) 2/i + p - 1 

6(/j - 1) 2 0 ~ -) + «(» + P ~ 1 )(5p - II) , 

p- i 

(p - \) 2 (p - 2) 

~ V n(n 4- p - 1 ) p — 3 

«O - 3 )(/; - 4)(/i + p - 1) 

Fin, p) 

mm 

■ 

/ 8(/7 - 4) 2n + p - 2 

120 “ 2) 2 (/> - 4) + ///(// + p - 2)(5 p -22) 

SI 

n(.P ~ 2) 2 (p - 4) 

\ //(/i + p - 2) p - 6 

//(// - 6)0 - 8)(/i + p ~ 2) 

Log-normaie 

exp (iu + 

exp(2//i + ix 2 )(exp cr : - 1 ) 

(exp rr 2 + 2)Vexp a 2 — 1 

exp 4(x 2 t- 2 exp 3it 2 4- 3 exp 2a 2 - 3 

Weibull 

/(.v) = exp(-.v f) ) 

r H) 




Gumbel exp(-.v - exp( — x)) 

0.57722 

TT 2 /6 

1.29857 

5.4 


(1) si n > 2. 

(2) si n > 4. 
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B ra Formulaire 


Quelques relations exactes entre les principales distributions 

Loi de Pascal et loi binomiale négative 

Si X suit une loi Pa ( n : p), X — n suit une loi binomiale négative B~ [/? ; 

Loi de Poisson et loi du x 2 

Si X suit une loi 3P(w) : P(X < .y) = P(x 2 ( x+ d > - nt ) 

Loi binomiale et loi de Fisher-Snedecor 

Si X suit une loi 3ft(/i ; p) : P[X ^ a) = P\ F >-*-— 

\ a + 1 1 — p 

où F a pour degré de liberté 2(a + 1) et 2 (n — a). 

Loi de Fisher-Snedecor et loi de Student 

T~ = F( 1 ; «) 

Loi gamma et loi du x 2 

Si X suit une loi y n 2X est un xir 

Lois bêta et loi de Fisher-Snedecor 

Si X bêta T (n ; p) : -= F(2n ; 2 p) 

n 1 — X 

Si X bêta II (n ; p) : — = F(2n ; 2 p) 

n 






Calcul des fonctions 
de répartition de 
certaines lois 
continues 


Les formules qui suivent permettent de calculer exactement ou approximativement avec 
une grande précision P(X < x) ou P{X > x). Leur intérêt est d'être facilement programmables 
même sur une calculatrice de poche et d’éviter le recours à des tables. 


C.l LOI NORMALE CENTRÉE-RÉDUITE 

L’approximation suivante fournit pour tout u positif P(U < u) avec une erreur infé¬ 
rieure à 10~ 7 . 


P(U < u ) - 1 -/(h) (Z?,/ + b 2 t 2 + Zy 3 + V* + V 5 ) 
r 1 / I 

avec : f(u) = -j= expj^ -- ir J ; 

1 

r _ 1 + 0.2316419» ’ 
b y = 0.319381530 ; 
b 2 = -0.356563782 ; 
b 3 = 1.781477937 ; 
b A = -1.821255978 ; 
b 5 = 1.330274429. 
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C^Calcul des fonctions de répartition de certaines lois continues 


C.2 LOI DU xî 

C.2. S Formules exactes 

C.2.I.I v pair : 


r/2—1 

P(Xv > x) = S ex P 

f = 0 


en particulier on a P(xi < >v) = 1 — expl — - I. 


C.2.1.2 v impair : 


^ > ,) = 2 P [U > V-t] + exp(- 5 . C j| „ 


en particulier on a P(x\ < x) = 2 p{jU < VÂ‘) — 1. 

C.2.2 Formules approchées 

La meilleure est celle de Wilson-Hilferty qui donne P avec deux décimales exactes dès 
que 3 : 

. , M/f x \\ . 2 \\ 


P(x;<x)= P{U <[-) [H +--1 


d’où pour la valeur .v de xl ayant la probabilité p d’être dépassée : 


- + «V?T 

7 V 9v_ 


x — v 1 - — 
9v 


où u est le fractile correspondant de U : P(U > u) = p. 


C.3 LOI DE FISHER-SNEDECOR F(v { ; v 2 ) 


On utilisera l’approximation de Paulson dérivée de celle de Wilson-Hilferty : 


P(F <f) — P U < 


f'P\ \ - — ) + — - 1 
J \ 9 vJ 9v’, 

V 9 1 

- + f~P - 

9v, J 9vi 





CraCalcul des fonctions de répartition de certaines lois continues 
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elle donne dès que v 2 — 4 et pour tout v,, 2 décimales exactes. 


Si v-, < 3 on multipliera la fraction ci-dessus par 1 + 0.08 

\ td 


C.4 FONCTION DE REPARTITION 
DE LA LOI DE STUDENT T, 


C.4. S Formules exactes 
CAA. I n=l 

7, est la loi de Cauchy de densité 


1 


tt(1 + /-) 


— d’où : 

1\ 


P (T < t) = - + — Arc tg t 

2 TT 

ii Z 77 

réciproquement si on connaît a tel que : P(|7|| < t) on a : / = tgl — a 


CAA.2 n>2 


En posant 0 = Arc Ig -= on a : 

vn 


n impair : 


P(\T n \ < t) = - 0 + sin 6 

TT 


r , 2 , 2.4. (n - 3) 

cos 0 + - cos 3 0 -f • ■ ■ +- 

3 1.3. (n ~ 2) 


, , , 1 1.3.5...(n - 3) 

il pair : P ( 7. < /) = sin 0 i 1 H— cos- 0 + ■ ■ • +. .. - - cos' 1 

P V| 1 2 2.4.6...(/i - 2) 


en particulier on en déduit : 

P(|r 2 | < t ) = 


V2 + t 2 


et P(|7 4 |<0 = 


6 1 + r 3 
(4 + f-Ÿ /: 


C.4.2 Formule approchée 

Elle se déduit de l’approximation de la loi de Fisher-Snedecor car T^ 


P(\T\ >/)-/> 


U > 



7\ 

M \ - — 

— 1 

\ 9 n) 

9 

h 

1 

i - 9 + ' j/3 

9/7 / 



E(1 ;n) 






Les fonctions 
eulériennes F et B 


D.l LA FONCTION F 


Elle est définie pour A' > 0 par : 


!*. 

j[) 


r(.v) = exp(— t)t x '(il 


Relation fondamentale : 


F (.y + 1 ) = aT(x) 


exp (—t)t x dt — 

Jü Jo 


En effet : F(.r + 1 ) = exp(-/)/ A dr = r/(exp( —f))f* 


+ x I exp( — /)/•*’ 1 dt 

o Jo 


—exp (~t)t x 

Or exp (— t)t x vaut 0 si x vaut 0 ou 

On a : F(l) = exp(— t) dr = 1 

Jo 

d’où : F(// + 1) = nT(n) — n(n — 1 )T(?î — 2) = nir(l) = //! 


T (/j + 1) = n\ 


La fonction Y généralise la notion de factorielle aux nombres réels positifs (fig. D.l) : 
Lorsque x 0, r(.v) —> 

En effet, supposons TCv) —* ni fini, d’après F(.v + 1) = .vF(x) on obtient par continuité si 
.i'^OF(l) = 0 ce qui est absurde, donc r(.v) — * 
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Dm Les fonctions eulériennes f et B 


r(x) 



1 2 3 4 x 

Figure D.l 








Dos Les fonctions eulériennes T et B 
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donc : 


np)T(cj) = 4 exp( — u 2 )u 2p 1 àu exp( — i’ 2 )r 2 ' y ' dv 


= 4) exp( — {ir + y 2 ))/r /, ~ 'v 2 ' /_ 1 d/f dv 


Passons en polaires : u = p cos 0 v = p sin 0 : 


r(/7)r(<3>) = 4 exp(-p : )p 2/ ’ 1 + 2,/ ‘(cos 0) 2/7 ‘(sin 0) 2(/ ’pdpdO 

Jp—oJo=0 


Y(p)T(q) = 4 exp( — p 2 )p 2<p ' t,] ‘(cos 0) 2/ ’ 1 (sin0) 2 ' 7 1 dp dB 

Jp = ()J() = 0 


= 4| exp( — p 2 )p 2(f ' : q) 1 dp (cos 0) 2/ ’ ! (sin 0) 2// 1 d0 
Jf> = 0 Jo = o 


donc : 


2F(p + q ) (cos 0) 2? ’ ‘(sin 0) 2,/ 1 d0 

J«=ü 

B(p, q) = 2 I 1 (cos 0) 2/ ’“ ‘(sin 0) 2 "~ 
J o 


En particulier : 






dB = TT 


ri UÆ 


En passant en coordonnées cartésiennes, donc en posant cos 2 B — / on trouve : 


B(p,q) = t?-\\ - ty‘~ x dl 

J o 







Quelques résultats 
utiles d’algèbre 
linéaire 


E est un espace vectoriel de dimension finie muni d’une métrique M (matrice 
symétrique définie positive). La plupart des propriétés suivantes seront énoncées sans 
démonstration. 


E.l MATRICES M-SYMÉTRIQUES 

Soit A une matrice carrée m n. Le produit scalaire dans E étant défini par (u, v) = u'Mv, 
l’adjointe A* de A est définie par : 

(A*u, v) = (u, Av) Vu, v 

Si A :|: = A on dit que A est M-symétrique, ceci entraîne que : 

u'MAv = u'A'Mv Vu, v 

donc : MA = A'M 

On montre que A est alors diagonalisable, que ses valeurs propres sont réelles et que ses 
vecteurs propres sont M-orthogonaux deux à deux, ce qui généralise les propriétés des matri¬ 
ces symétriques. 

Si u,. u 2 ,. . u„ forment une base M-orthonormée de E alors = M" 1 . 

i = 1 


E.2 PROJECTEURS M-ORTHOGONAUX 

Étant donné un sous-espace VL de E, P est la matrice de projection M-orthogonale sur VL si 
Py € VL et si (Py, y - Py) - 0 (fig. E.l). 

Ce qui revient à écrire que Py e VL Vy, que P 2 = P et que P'M = MP. 

Un projecteur M-orthogonal est une matrice idempotente et M-symétrique. 

Les valeurs propres de P sont alors 1 ou 0 et Trace P = dim IV = rang P. 
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fmQuelques résultats utiles d'algèbre linéaire 



Si P, + Pt + • • • + P*, sont des projecteurs M-orthogonaux alors P, + P 2 + ■ ■ • + 
n’est un projecteur M-orthogonal que si, et seulement si, P,P ; = 0 pour / ^ j, c’est-à-dire si 
les espaces d’arrivée des P, sont M-orthogonaux. 

Si W 1 est le supplémentaire M-orthogonal de W dans E, alors I — P est le projecteur 
M-orthogonal sur W 1 . 

Écriture explicite du projecteur P 

Supposons W engendré par p vecteurs linéairement indépendants x,, x 2 ,.. x et soit X 
la matrice ( 77 , p) ayant les x, pour vecteurs-colonnes. 

y — Py doit être orthogonal à tout vecteur de W ; or, tous les vecteurs de IV sont de la 
forme Xu, en particulier Py — Xb. 

11 faut donc (Xu y ; y - Py) = 0 i = 1, 2,.. 77 où les u, forment une base de R n : 

u;-X'M(y - Py) = 0 V/ 

donc X'My = X'MPy ; comme Py = Xb et que dim W — p , X'MX est inversible, il vient : 

X'My = X'MXb et b = (X'MXr'X'My 
Py = Xb = X(X'MX) _, X'My 

P = X(X'MXr'X'M 

En particulier, le projecteur M-orthogonal sur un vecteur x s’écrit : 

vv'M 

P = x(x'Mx) _l x'M = 

(x Mx) 

car x'Mx est un scalaire. 

E.3 PSEUDO-INVERSES 

Soit A une matrice rectangle appliquant un espace E dans un espace F. Une matrice 
A~ appliquant F dans E telle que : 

A _ y = x et Ax = y Vy g Im(A) 
est appelée pseudo-inverse de A. 



EesaQuelques résultats utiles d’algèbre linéaire 


Il existe toujours au moins un pseudo-inverse qui vérifie la relation caractéristique : 

AA~A = A 

Il y a en général une infinité de pseudo-inverses, mais il n’existe qu’un seul pseudo¬ 
inverse A + , dit de Moore-Penrose, vérifiant en plus : 

A + AA + = A + 

AA + = (AA + )' 

A + A - (A + A)' 

Pseudo-inverse d’une matrice diagonale : 


il vient : 


11 est alors immédiat de trouver le pseudo-inverse de Moore-Penrose d’une matrice symé¬ 
trique non régulière en travaillant sur la matrice diagonale de ses valeurs propres. 

On en déduit la forme générale du pseudo-inverse de Moore de toute matrice rectangle A : 

A + = (A'A) + A' 

où A'A est symétrique, en particulier si A'A est inversible (le rang de A est égal au nombre 
de colonnes de A) A + = (A'A) _, A\ 

Si X|, Xi, . . x p engendrent un espace W de dimension < p le projecteur M-orthogonal 
sur W est alors : 

X(X'MX)~X'M 

E.4 FORMULES DE DÉRIVATION VECTORIELLE 


Soit g une application de l’espace vectoriel IR /J dans R|u —> g{ u). 
Par définition on a : 


où 


u = 
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fsaQuelques résultats utiles d'algèbre linéaire 


Propriété I 


d(a'u) 


= a si a est un vecteur constant. 


En effet : 




Donc : 


d(a'u) 


Propriété 2 


Soit À une matrice carrée de taille p : 


d(u'Au) 


= Au 4- A'u 


Soit «ÿ l'élément courant de A ; on a 


u Au = 


5(u'Au) 

Cherchons-: les termes contenant u ] au premier degré sont de deux sortes : 

du , 

ceux provenant de iij = «,■ et ceux provenant de u ,• = //,, c’est-à-dire et 

i# i 

dont les dérivées sont et et ^ ^ aut a j outer «n»i à chacun. 

y#i ji --1 î*i 


On a donc : 


j 

d(u Au) = f + T 
du 


d(u'Au) 


Au + A'u 


En particulier pour une matrice H, symétrique H = H'. 


Donc : 


d(u'Hu) 




fœQuelques résulcacs utiles d'algèbre linéaire 
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Application à la maximisation du quotient de deux formes quadratiques 

Soient A et B deux matrices symétriques de même taille. B sera supposée inversible. 
Alors le rapport U ,^ U est maximal pour u vecteur propre de B - 'A, associé à sa plus 
grande valeur propre \ |; étant alors la valeur du maximum. 

u'Au 


em Démonstration : Un extremum de 


Soit : 


u'Bu 

(u'Bu)(2Au) - (u'Au)(2Bu) 
(u'Bu) 2 

(u'Bu)Au = (u'Au)Bu 

u'Au 


s’obtient en annulant sa dérivée qui vaut : 


B~ Au = 


u'Bu 


u est donc vecteur propre de B 'A associé à la valeur propre 
donc atteint si cette valeur propre est maximale. 


u'Au 

u'Bu 


. Le maximum est 
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